論文の概要: A Necessary Step toward Faithfulness: Measuring and Improving Consistency in Free-Text Explanations
- arxiv url: http://arxiv.org/abs/2505.19299v1
- Date: Sun, 25 May 2025 20:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.038655
- Title: A Necessary Step toward Faithfulness: Measuring and Improving Consistency in Free-Text Explanations
- Title(参考訳): 信心への道のり:自由テキスト解説における一貫性の測定と改善
- Authors: Lingjun Zhao, Hal Daumé III,
- Abstract要約: 本稿では,エビデンス重みの概念を拡張し,予測-説明整合性の尺度を提案する。
直接選好最適化を適用することで、3つのモデルファミリー間で発生した説明の一貫性が向上することを示す。
- 参考スコア(独自算出の注目度): 27.391249438645353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Faithful free-text explanations are important to ensure transparency in high-stakes AI decision-making contexts, but they are challenging to generate by language models and assess by humans. In this paper, we present a measure for Prediction-EXplanation (PEX) consistency, by extending the concept of weight of evidence. This measure quantifies how much a free-text explanation supports or opposes a prediction, serving as an important aspect of explanation faithfulness. Our analysis reveals that more than 62% explanations generated by large language models lack this consistency. We show that applying direct preference optimization improves the consistency of generated explanations across three model families, with improvement ranging from 43.1% to 292.3%. Furthermore, we demonstrate that optimizing this consistency measure can improve explanation faithfulness by up to 9.7%.
- Abstract(参考訳): 忠実な自由文の説明は、高度なAI意思決定コンテキストにおける透明性を確保するために重要であるが、言語モデルによって生成され、人間によって評価されることは困難である。
本稿では,エビデンス重みの概念を拡張して,予測-説明整合性(PEX)の尺度を提案する。
この尺度は、自由文の説明がどの程度予測を支持するか、あるいは反対するかを定量化し、説明の忠実さの重要な側面として機能する。
分析の結果,大言語モデルによる62%以上の説明には,この一貫性が欠如していることが判明した。
直接選好最適化を適用することで、3つのモデルファミリー間の説明の一貫性が向上し、43.1%から292.3%の改善が期待できる。
さらに、この整合性尺度を最適化することで、説明忠実度を最大9.7%向上させることができることを示す。
関連論文リスト
- Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - LExT: Towards Evaluating Trustworthiness of Natural Language Explanations [10.77745803401336]
本稿では,自然言語の説明の信頼性を定量化し,妥当性と信条のバランスをとる枠組みを提案する。
パブリックな医療データセットを用いて、ドメインに依存しないフレームワークを医療領域に適用し、6つのモデルを評価する。
以上の結果から,信頼に値する説明を生み出す能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-04-08T17:16:52Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Structured Reasoning for Fairness: A Multi-Agent Approach to Bias Detection in Textual Data [0.0]
本稿では,各文を事実あるいは意見として切り離して識別するマルチエージェントフレームワークを提案する。
改良された検出精度と解釈可能な説明を組み合わせることで、現代の言語モデルにおける説明責任を促進する。
論文 参考訳(メタデータ) (2025-03-01T05:27:54Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。