論文の概要: Training Language Models to Explain Their Own Computations
- arxiv url: http://arxiv.org/abs/2511.08579v1
- Date: Wed, 12 Nov 2025 02:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.871913
- Title: Training Language Models to Explain Their Own Computations
- Title(参考訳): 言語モデルによる独自の計算の解説
- Authors: Belinda Z. Li, Zifan Carl Guo, Vincent Huang, Jacob Steinhardt, Jacob Andreas,
- Abstract要約: 本研究では,LMの自己内部への特権的アクセスをどの程度活用できるかを考察し,その振る舞いを説明するための新しい手法を提案する。
既存の解釈可能性技術を用いて,(1)LM特徴によって符号化された情報,(2)LMの内部アクティベーションの因果構造,(3)特定の入力トークンがLM出力に与える影響の自然言語記述を生成する。
- 参考スコア(独自算出の注目度): 73.8562596518326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can language models (LMs) learn to faithfully describe their internal computations? Are they better able to describe themselves than other models? We study the extent to which LMs' privileged access to their own internals can be leveraged to produce new techniques for explaining their behavior. Using existing interpretability techniques as a source of ground truth, we fine-tune LMs to generate natural language descriptions of (1) the information encoded by LM features, (2) the causal structure of LMs' internal activations, and (3) the influence of specific input tokens on LM outputs. When trained with only tens of thousands of example explanations, explainer models exhibit non-trivial generalization to new queries. This generalization appears partly attributable to explainer models' privileged access to their own internals: using a model to explain its own computations generally works better than using a *different* model to explain its computations (even if the other model is significantly more capable). Our results suggest not only that LMs can learn to reliably explain their internal computations, but that such explanations offer a scalable complement to existing interpretability methods.
- Abstract(参考訳): 言語モデル(LM)は、内部計算を忠実に記述できるだろうか?
他のモデルよりも自分自身を説明する方がよいのでしょうか?
本研究では,LMの自己内部への特権的アクセスをどの程度活用できるかを考察し,その振る舞いを説明するための新しい手法を提案する。
既存の解釈可能性技術を用いて,(1)LM特徴によって符号化された情報,(2)LMの内部アクティベーションの因果構造,(3)特定の入力トークンがLM出力に与える影響の自然言語記述を生成する。
数万のサンプル説明で訓練すると、説明モデルは新しいクエリに非自明な一般化を示す。
この一般化は、モデルが自身の内部への特権的アクセスに部分的に寄与する: モデルを使用して自身の計算を説明することは、*different*モデルを使用して計算を(他のモデルの方がはるかに有能であるとしても)説明するよりも、一般的にはよりうまく機能する。
この結果から,LMが内部計算を確実に説明できるだけでなく,既存の解釈可能性手法をスケーラブルに補完できる可能性が示唆された。
関連論文リスト
- LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations [35.01080969148123]
言語モデル(LM)は、世界の知識を必要とする現実世界のアプリケーションをますます推進します。
プレトレーニング中のLMにおける知識獲得の分析スイートであるLMEntについて述べる。
チェックポイントをまたいだ知識獲得を研究し,事実頻度が重要であるが,学習の傾向を十分に説明していないことを明らかにする。
論文 参考訳(メタデータ) (2025-09-03T15:31:18Z) - Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study [11.117380681219295]
高品質なテキスト記述を自動生成するフレームワークを提案する。
自然言語生成(NLG)メトリクスの包括的スイートを用いて,これらの説明の質を厳格に評価する。
本実験により,自動説明は人手による説明に比べて高い競争力を示すことが示された。
論文 参考訳(メタデータ) (2025-08-13T12:59:08Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - LMExplainer: Grounding Knowledge and Explaining Language Models [37.578973458651944]
GPT-4のような言語モデル(LM)は、AIアプリケーションにおいて重要であるが、不透明な意思決定プロセスは、特に安全クリティカルな領域において、ユーザの信頼を低下させる。
LMExplainerは,人間の直感的,理解可能な説明を通じて,LMの推論過程を明らかにする新しい知識基盤説明器である。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。