論文の概要: Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.09277v2
- Date: Thu, 12 Jun 2025 13:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.182801
- Title: Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models
- Title(参考訳): 自分がどう思うか、私は熱心に話したか? 大規模言語モデルにおける神経活動と自己説明のギャップを埋める
- Authors: Milan Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Sarath Chandar, Marie-Jeanne Lesot,
- Abstract要約: LLM(Large Language Models)は、自由テキストの自己自然言語説明(self-NLE)を生成し、その回答を正当化する能力を示した。
本研究は, LLM生成自己NLEの忠実度を定量的に測定する, フレキシブルな枠組みを導入する。
提案するフレームワークは汎用的で,自己NLEとモデル推論の直接的な関係を確立することにより,自己NLEの忠実性に対する深い洞察を提供する。
- 参考スコア(独自算出の注目度): 9.499055857747322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLM) have demonstrated the capability of generating free text self Natural Language Explanation (self-NLE) to justify their answers. Despite their logical appearance, self-NLE do not necessarily reflect the LLM actual decision-making process, making such explanations unfaithful. While existing methods for measuring self-NLE faithfulness mostly rely on behavioral tests or computational block identification, none of them examines the neural activity underlying the model's reasoning. This work introduces a novel flexible framework for quantitatively measuring the faithfulness of LLM-generated self-NLE by directly comparing the latter with interpretations of the model's internal hidden states. The proposed framework is versatile and provides deep insights into self-NLE faithfulness by establishing a direct connection between self-NLE and model reasoning. This approach advances the understanding of self-NLE faithfulness and provides building blocks for generating more faithful self-NLE.
- Abstract(参考訳): LLM(Large Language Models)は、自由テキストの自己自然言語説明(self-NLE)を生成し、その回答を正当化する能力を示した。
論理的な外見にもかかわらず、自己NLEは必ずしもLCMの実際の意思決定過程を反映しておらず、そのような説明は不信である。
自己NLEの忠実度を測定する既存の方法は、行動テストや計算ブロックの識別に大きく依存しているが、いずれもモデルの推論の根底にある神経活動を調べるものではない。
本研究は, LLM生成自己NLEの忠実度をモデルの内部隠れ状態の解釈と直接比較することにより定量的に測定する, フレキシブルな枠組みを提案する。
提案するフレームワークは汎用的で,自己NLEとモデル推論の直接的な関係を確立することにより,自己NLEの忠実性に対する深い洞察を提供する。
このアプローチは自己NLEの忠実さの理解を促進し、より忠実な自己NLEを生成するためのビルディングブロックを提供する。
関連論文リスト
- Faithful and Stable Neuron Explanations for Trustworthy Mechanistic Interpretability [2.566497773003048]
我々は、ニューロンの同定を機械学習の逆過程と見なすことができると論じている。
信頼と安定という2つの基本的な課題に関する最初の理論的分析を提示する。
合成データと実データの両方の実験により理論的結果が検証され,本手法の有効性が実証された。
論文 参考訳(メタデータ) (2025-12-19T21:55:17Z) - Self-Critique and Refinement for Faithful Natural Language Explanations [15.04835537752639]
本稿では,自然言語解説の自己批判と再定義について紹介する。
このフレームワークは、モデルが自身の説明の忠実さを改善することを可能にする。
SR-NLEは不誠実度を著しく低下させる。
論文 参考訳(メタデータ) (2025-05-28T20:08:42Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - A Comprehensive Survey on Self-Interpretable Neural Networks [36.0575431131253]
自己解釈型ニューラルネットワークは、本質的にモデル構造を通して予測合理的性を明らかにする。
まず、自己解釈型ニューラルネットワークに関する既存の研究を収集、レビューし、その方法論を構造化した概要を提供する。
また、モデル説明の具体的、可視化された例を示し、その適用性について様々なシナリオで論じる。
論文 参考訳(メタデータ) (2025-01-26T18:50:16Z) - Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文 参考訳(メタデータ) (2024-04-19T12:23:57Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning [59.16962123636579]
本稿では,Prologベースの推論エンジンを新たに提案する。
我々は手作りのルールを、ニューラルネットワークモデリング、ガイド付き生成、半密検索の組み合わせで置き換える。
我々の実装であるNELLIEは、完全に解釈可能なエンドツーエンドの基底QAを示す最初のシステムである。
論文 参考訳(メタデータ) (2022-09-16T00:54:44Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - How Much Can I Trust You? -- Quantifying Uncertainties in Explaining
Neural Networks [19.648814035399013]
説明可能なAI(XAI)は、ディープニューラルネットワークなどの学習マシンが生成した予測の解釈を提供することを目的としている。
ニューラルネットワークの任意の説明法をベイズニューラルネットワークの説明法に変換するための新しいフレームワークを提案する。
様々な実験において,本手法の有効性と有用性を示す。
論文 参考訳(メタデータ) (2020-06-16T08:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。