論文の概要: Superscopes: Amplifying Internal Feature Representations for Language Model Interpretation
- arxiv url: http://arxiv.org/abs/2503.02078v2
- Date: Sun, 09 Mar 2025 10:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:29.067846
- Title: Superscopes: Amplifying Internal Feature Representations for Language Model Interpretation
- Title(参考訳): Superscopes: 言語モデル解釈のための内部的特徴表現の増幅
- Authors: Jonathan Jacobi, Gal Niv,
- Abstract要約: モデルの特徴を新しいコンテキストに増幅する手法であるSuperscopesを紹介する。
スーパースコープは、事前の手法が追加の訓練を必要とせずに全てを説明することができなかった内部表現の解釈を可能にする。
このアプローチは、LLMがコンテキストを構築し、複雑な概念を表現する方法に関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Understanding and interpreting the internal representations of large language models (LLMs) remains an open challenge. Patchscopes introduced a method for probing internal activations by patching them into new prompts, prompting models to self-explain their hidden representations. We introduce Superscopes, a technique that systematically amplifies superposed features in MLP outputs (multilayer perceptron) and hidden states before patching them into new contexts. Inspired by the "features as directions" perspective and the Classifier-Free Guidance (CFG) approach from diffusion models, Superscopes amplifies weak but meaningful features, enabling the interpretation of internal representations that previous methods failed to explain-all without requiring additional training. This approach provides new insights into how LLMs build context and represent complex concepts, further advancing mechanistic interpretability.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部表現の理解と解釈は依然としてオープンな課題である。
Patchscopesは、内部のアクティベーションを新しいプロンプトに当てはめ、モデルに隠れた表現を自己説明させる方法を導入した。
スーパースコープ(Superscopes)は,MLP出力(多層パーセプトロン)と隠蔽状態の重畳された特徴を,新しい文脈に当てはめる前に体系的に増幅する手法である。
方向として機能する」視点と拡散モデルからの分類自由誘導(CFG)アプローチにインスパイアされたスーパースコープは、弱いが有意義な特徴を増幅し、以前の手法が追加の訓練を必要とせずに全てを説明することができなかった内部表現の解釈を可能にする。
このアプローチは、LLMがコンテキストを構築し、複雑な概念を表現する方法に関する新たな洞察を提供する。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models [24.817659341654654]
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,従来の表現を語彙空間に投影し,LLMに介入する手法の多くを,このフレームワークの例とみなすことができることを示す。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明する、マルチホップ推論エラー修正などの新しい可能性も開放している。
論文 参考訳(メタデータ) (2024-01-11T18:33:48Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。