論文の概要: Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.09277v1
- Date: Tue, 10 Jun 2025 22:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.126069
- Title: Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models
- Title(参考訳): 自分がどう思うか、私は熱心に話したか? 大規模言語モデルにおける神経活動と自己説明のギャップを埋める
- Authors: Milan Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Sarath Chandar, Marie-Jeanne Lesot,
- Abstract要約: LLM(Large Language Models)は、自由テキストの自己自然言語説明(self-NLE)を生成し、その回答を正当化する能力を示した。
本研究は, LLM生成自己NLEの忠実度を定量的に測定する, フレキシブルな枠組みを導入する。
提案するフレームワークは汎用的で,自己NLEとモデル推論の直接的な関係を確立することにより,自己NLEの忠実性に対する深い洞察を提供する。
- 参考スコア(独自算出の注目度): 9.499055857747322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLM) have demonstrated the capability of generating free text self Natural Language Explanation (self-NLE) to justify their answers. Despite their logical appearance, self-NLE do not necessarily reflect the LLM actual decision-making process, making such explanations unfaithful. While existing methods for measuring self-NLE faithfulness mostly rely on behavioral tests or computational block identification, none of them examines the neural activity underlying the model's reasoning. This work introduces a novel flexible framework for quantitatively measuring the faithfulness of LLM-generated self-NLE by directly comparing the latter with interpretations of the model's internal hidden states. The proposed framework is versatile and provides deep insights into self-NLE faithfulness by establishing a direct connection between self-NLE and model reasoning. This approach advances the understanding of self-NLE faithfulness and provides building blocks for generating more faithful self-NLE.
- Abstract(参考訳): LLM(Large Language Models)は、自由テキストの自己自然言語説明(self-NLE)を生成し、その回答を正当化する能力を示した。
論理的な外見にもかかわらず、自己NLEは必ずしもLCMの実際の意思決定過程を反映しておらず、そのような説明は不信である。
自己NLEの忠実度を測定する既存の方法は、行動テストや計算ブロックの識別に大きく依存しているが、いずれもモデルの推論の根底にある神経活動を調べるものではない。
本研究は, LLM生成自己NLEの忠実度をモデルの内部隠れ状態の解釈と直接比較することにより定量的に測定する, フレキシブルな枠組みを提案する。
提案するフレームワークは汎用的で,自己NLEとモデル推論の直接的な関係を確立することにより,自己NLEの忠実性に対する深い洞察を提供する。
このアプローチは自己NLEの忠実さの理解を促進し、より忠実な自己NLEを生成するためのビルディングブロックを提供する。
関連論文リスト
- Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。