論文の概要: FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2604.10693v2
- Date: Mon, 20 Apr 2026 08:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.379847
- Title: FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning
- Title(参考訳): FACT-E: 信頼できるチェーン・オブ・ソート推論のための因果性に基づく評価
- Authors: Yuxi Sun, Aoqi Zuo, Haotian Xie, Wei Gao, Mingming Gong, Jing Ma,
- Abstract要約: CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
- 参考スコア(独自算出の注目度): 49.65751420291115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has improved LLM reasoning, but models often generate explanations that appear coherent while containing unfaithful intermediate steps. Existing self-evaluation approaches are prone to inherent biases: the model may confidently endorse coherence even when the step-to-step implication is not valid, leading to unreliable faithfulness evaluation. We propose FACT-E, a causality-inspired framework for evaluating CoT quality. FACT-E uses controlled perturbations as an instrumental signal to separate genuine step-to-step dependence from bias-driven artifacts, producing more reliable faithfulness estimates (\textit{intra-chain faithfulness}). To select trustworthy trajectories, FACT-E jointly considers \textit{intra-chain faithfulness} and \textit{CoT-to-answer consistency}, ensuring that selected chains are both faithful internally and supportive of the correct final answer. Experiments on GSM8K, MATH, and CommonsenseQA show that FACT-E improves reasoning-trajectory selection and yields stronger in-context learning exemplars. FACT-E also reliably detects flawed reasoning under noisy conditions, providing a robust metric for trustworthy LLM reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
モデルは、ステップ・ツー・ステップの含意が有効でない場合でも、確実にコヒーレンスを支持し、信頼できない忠実さ評価をもたらす。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは制御摂動を器用信号として使用し、真のステップツーステップ依存をバイアス駆動の人工物から分離し、より信頼性の高い忠実度推定(\textit{intra-chain faithfulness})を生成する。
信頼できる軌道を選択するために、FACT-E は \textit{intra-chain faithfulness} と \textit{CoT-to-answer consistency} を共同で検討し、選択された連鎖が内部的に忠実であり、正しい最終回答を支持することを保証する。
GSM8K、MATH、CommonsenseQAの実験により、FACT-Eは推論・軌道選択を改善し、文脈内学習の卓越性を向上することが示された。
FACT-Eはまた、ノイズのある条件下での欠陥推論を確実に検出し、信頼できるLCM推論のための堅牢な計量を提供する。
関連論文リスト
- The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models [1.5001933823689926]
推論は、ほとんどの不確実性推定の品質を一貫して低下させることを示す。
暗黙の回答条件付けを主要なメカニズムとみなす。
対照的に、合意に基づく一貫性は堅牢であり、しばしば推論の下で改善される。
論文 参考訳(メタデータ) (2026-03-17T16:12:06Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。