論文の概要: Towards Large Language Models with Self-Consistent Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2506.07523v1
- Date: Mon, 09 Jun 2025 08:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.8566
- Title: Towards Large Language Models with Self-Consistent Natural Language Explanations
- Title(参考訳): 自己持続型自然言語記述を用いた大規模言語モデルに向けて
- Authors: Sahar Admoni, Ofra Amir, Assaf Hallak, Yftah Ziser,
- Abstract要約: 大きな言語モデル(LLM)は、解釈容易なパスを提供するようだ。
しかし、研究によると、これらのポストホックな説明は真の決定過程を誤って表現していることが多い。
- 参考スコア(独自算出の注目度): 11.085839471231552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) seem to offer an easy path to interpretability: just ask them to explain their decisions. Yet, studies show that these post-hoc explanations often misrepresent the true decision process, as revealed by mismatches in feature importance. Despite growing evidence of this inconsistency, no systematic solutions have emerged, partly due to the high cost of estimating feature importance, which limits evaluations to small datasets. To address this, we introduce the Post-hoc Self-Consistency Bank (PSCB) - a large-scale benchmark of decisions spanning diverse tasks and models, each paired with LLM-generated explanations and corresponding feature importance scores. Analysis of PSCB reveals that self-consistency scores barely differ between correct and incorrect predictions. We also show that the standard metric fails to meaningfully distinguish between explanations. To overcome this limitation, we propose an alternative metric that more effectively captures variation in explanation quality. We use it to fine-tune LLMs via Direct Preference Optimization (DPO), leading to significantly better alignment between explanations and decision-relevant features, even under domain shift. Our findings point to a scalable path toward more trustworthy, self-consistent LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、解釈容易なパスを提供するように思われる。
しかし、これらのポストホックな説明は、しばしば、特徴的重要性のミスマッチによって明らかになったように、真の決定過程を誤って表現している。
この矛盾の証拠が増大しているにもかかわらず、システム的な解決策は登場していない。それは部分的には、小さなデータセットに対する評価を制限する、機能の重要性を見積もるコストが高いためである。
これを解決するために,多種多様なタスクやモデルにまたがる意思決定の大規模なベンチマークであるPSCB(Post-hoc Self-Consistency Bank)を紹介した。
PSCBの分析では、自己整合性スコアは正しい予測と間違った予測とはほとんど異なっている。
また、標準計量は説明を有意に区別できないことも示している。
この制限を克服するために,説明品質の変動をより効果的に捉えた代替指標を提案する。
私たちは、DPO(Direct Preference Optimization)を通じてLLMを微調整し、ドメインシフトであっても、説明と決定関連機能との整合性を大幅に向上させます。
我々の発見は、より信頼できる自己整合性 LLM へのスケーラブルな道を示している。
関連論文リスト
- DecisionFlow: Advancing Large Language Model as Principled Decision Maker [48.654276010223384]
DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文 参考訳(メタデータ) (2025-05-27T16:23:53Z) - Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations [30.68740512996253]
思考の連鎖の説明は、大きな言語モデルの決定過程を調べるために広く使われている。
これらの説明の忠実さを必然的に低減することができることを示す。
論文 参考訳(メタデータ) (2025-04-07T17:49:23Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。