論文の概要: Faithfulness Serum: Mitigating the Faithfulness Gap in Textual Explanations of LLM Decisions via Attribution Guidance
- arxiv url: http://arxiv.org/abs/2604.14325v1
- Date: Wed, 15 Apr 2026 18:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.988181
- Title: Faithfulness Serum: Mitigating the Faithfulness Gap in Textual Explanations of LLM Decisions via Attribution Guidance
- Title(参考訳): 信心性血清:帰属指導によるLCM決定のテキスト説明における信心性ギャップの緩和
- Authors: Bar Alon, Itamar Zimerman, Lior Wolf,
- Abstract要約: 大規模言語モデル(LLM)は高い性能を達成し、NLPに革命をもたらした。
説明責任の欠如はブラックボックスとして扱われ、透明性と信頼を求めるドメインでの使用を制限する。
本研究では,注意レベルの介入を通じて説明生成を導くことにより,信頼感を高める訓練自由手法を提案する。
- 参考スコア(独自算出の注目度): 57.17102098930037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve strong performance and have revolutionized NLP, but their lack of explainability keeps them treated as black boxes, limiting their use in domains that demand transparency and trust. A promising direction to address this issue is post-hoc text-based explanations, which aim to explain model decisions in natural language. Prior work has focused on generating convincing rationales that appear to be subjectively faithful, but it remains unclear whether these explanations are epistemically faithful, whether they reflect the internal evidence the model actually relied on for its decision. In this paper, we first assess the epistemic faithfulness of LLM-generated explanations via counterfactuals and show that they are often unfaithful. We then introduce a training-free method that enhances faithfulness by guiding explanation generation through attention-level interventions, informed by token-level heatmaps extracted via a faithful attribution method. This method significantly improves epistemic faithfulness across multiple models, benchmarks, and prompts.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なパフォーマンスを実現し、NLPに革命をもたらしたが、説明責任の欠如によりブラックボックスとして扱われ、透明性と信頼を求めるドメインでの使用が制限される。
この問題に対処するための有望な方向は、自然言語でモデル決定を説明することを目的とした、ポストホックテキストベースの説明である。
以前の研究は、主観的に忠実であるように見える合理的な理性を生み出すことに焦点が当てられていたが、これらの説明が認識的に忠実であるか、モデルがその決定に実際に頼っていた内部的証拠を反映しているかは定かではない。
本稿ではまず, LLM 生成した説明の認識的忠実度を, 反事実を通して評価し, しばしば不信感であることを示す。
次に、注意レベルの介入を通じて説明生成を誘導し、忠実な帰属法によって抽出されたトークンレベルのヒートマップから情報を得ることにより、信頼度を高める訓練自由手法を提案する。
この方法は、複数のモデル、ベンチマーク、プロンプトにまたがる疫学的な忠実性を大幅に改善する。
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - FaithLM: Towards Faithful Explanations for Large Language Models [60.45183469474916]
大規模言語モデルの忠実度を評価し改善するモデルに依存しないフレームワークであるFaithLMを紹介した。
FaithLMは一貫して忠実度を高め、強い自己説明ベースラインよりも人間の合理性に整合した説明を生成する。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。