論文の概要: A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior
- arxiv url: http://arxiv.org/abs/2602.02639v1
- Date: Mon, 02 Feb 2026 18:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.000725
- Title: A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior
- Title(参考訳): LLM自己説明は予測モデル行動を助ける
- Authors: Harry Mayne, Justin Singh Kang, Dewi Gould, Kannan Ramchandran, Adam Mahdi, Noah Y. Siegel,
- Abstract要約: LLMの自己説明は、しばしばAI監視のための有望なツールとして提示されるが、モデルの真の推論プロセスへの忠実さは理解されていない。
モデル決定基準の学習を忠実な説明で行うべきだという考え方に基づく指標である正規化シミュラタゲインビリティ(NSG)を紹介する。
自己説明はモデル行動の予測を大幅に改善する(11-37% NSG)。
- 参考スコア(独自算出の注目度): 11.616524876789624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM self-explanations are often presented as a promising tool for AI oversight, yet their faithfulness to the model's true reasoning process is poorly understood. Existing faithfulness metrics have critical limitations, typically relying on identifying unfaithfulness via adversarial prompting or detecting reasoning errors. These methods overlook the predictive value of explanations. We introduce Normalized Simulatability Gain (NSG), a general and scalable metric based on the idea that a faithful explanation should allow an observer to learn a model's decision-making criteria, and thus better predict its behavior on related inputs. We evaluate 18 frontier proprietary and open-weight models, e.g., Gemini 3, GPT-5.2, and Claude 4.5, on 7,000 counterfactuals from popular datasets covering health, business, and ethics. We find self-explanations substantially improve prediction of model behavior (11-37% NSG). Self-explanations also provide more predictive information than explanations generated by external models, even when those models are stronger. This implies an advantage from self-knowledge that external explanation methods cannot replicate. Our approach also reveals that, across models, 5-15% of self-explanations are egregiously misleading. Despite their imperfections, we show a positive case for self-explanations: they encode information that helps predict model behavior.
- Abstract(参考訳): LLMの自己説明は、しばしばAI監視のための有望なツールとして提示されるが、モデルの真の推論プロセスへの忠実さは理解されていない。
既存の忠実度指標には限界があり、典型的には、逆境による不誠実さの特定や推論エラーの検出に頼っている。
これらの手法は、説明の予測値を見落としている。
本稿では,モデル決定基準を忠実に理解し,関連する入力に対してその振る舞いをより正確に予測する,という考え方に基づく,汎用的でスケーラブルな尺度である正規化シミュラビリティ・ゲイン(NSG)を紹介する。
我々は、健康、ビジネス、倫理に関する一般的なデータセットから、7000の反事実に対して、18のフロンティアプロプライエタリおよびオープンウェイトモデル、例えば、Gemini 3, GPT-5.2, Claude 4.5を評価した。
自己説明はモデル行動の予測を大幅に改善する(11-37% NSG)。
自己説明は、たとえモデルが強いとしても、外部モデルによって生成された説明よりも予測的な情報を提供する。
これは、外部説明法が複製できないという自己認識の利点である。
私たちのアプローチは、モデル全体で、自己説明の5~15%が明らかに誤解を招くことも示しています。
不完全にもかかわらず、私たちは自己説明に肯定的なケースを示し、それらはモデル行動を予測するのに役立つ情報をエンコードする。
関連論文リスト
- Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations [1.8772057593980798]
大規模言語モデル(LLM)は、言語化された自己説明を生成することができる。
我々は,人間とLLMの審査員が,偽のフォローアップ質問に対するモデルの回答をどの程度予測できるかを評価する。
論文 参考訳(メタデータ) (2026-01-07T10:13:26Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Are self-explanations from Large Language Models faithful? [35.40666730867487]
大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
論文 参考訳(メタデータ) (2024-01-15T19:39:15Z) - PhilaeX: Explaining the Failure and Success of AI Models in Malware
Detection [6.264663726458324]
サイバーセキュリティにおける意思決定を支援するために使用されるAIモデルの予測に対する説明は、非常に重要である。
既存のAIモデルには、ほとんどのシナリオでパフォーマンスが強いにもかかわらず、予測結果に関する説明を提供する能力がない。
我々は、AIモデルの予測の完全な説明を形成するために、最適化された機能のサブセットを識別する手段を提供する、PhillaeXと呼ばれる新しい説明可能なAI手法を提案する。
論文 参考訳(メタデータ) (2022-07-02T05:06:24Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。