論文の概要: Faithfulness as Information Flow: Evaluating and Training Faithful Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2605.24286v1
- Date: Fri, 22 May 2026 23:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.846058
- Title: Faithfulness as Information Flow: Evaluating and Training Faithful Chain-of-Thought Reasoning
- Title(参考訳): 情報フローとしての忠実さ--信頼関係の評価と学習-
- Authors: Jinghan Jia, Joe Benton, Eric Easley,
- Abstract要約: 思考の連鎖(CoT)推論は言語モデルを監視するのに有用である。
モデルはCoTをバイパスするプロンプト・ツー・アンサー・ショートカットに依存することができる。
構造的情報フローの観点からCoTの忠実性を考察する。
- 参考スコア(独自算出の注目度): 10.87972575497941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning is useful for monitoring language models only when the reasoning trace faithfully reflects the computation that produces the final answer. However, models can rely on prompt-to-answer shortcuts that bypass the CoT, making the visible reasoning trace misleading even when it appears plausible. We study CoT faithfulness through a structural information-flow perspective: faithful reasoning should route answer-relevant information through the mediated path from prompt to CoT to answer, rather than through a direct prompt-to-answer shortcut. This perspective yields a task-agnostic framework based on three complementary properties, sufficiency, completeness, and necessity, which we instantiate with entropy-based, masked-KL, and gradient-based diagnostics. We show that these metrics recover externally judged faithfulness differences in hinted reasoning, and identify a low-entropy failure mode of KL-based diagnostics where gradient-based measures remain more stable. Building on this analysis, we introduce update-time interventions for verifier-based on-policy RL, including attention masking, backward-only gradient masking, CoT gradients, and adversarial perturbations of prompt representations. Across hinted arithmetic, reward-hackable code repair, and DAPO-Math models trained without hints but evaluated under wrong-hint injection, our interventions shift behavioral and structural indicators toward stronger CoT mediation. In particular, they make shortcut and reward-hacking behavior more transparent in the CoT and improve task-agnostic faithfulness metrics, while in some settings also reducing wrong-hint susceptibility. Our results suggest that controlling information flow during training is a practical route toward more faithful and monitorable CoT reasoning. Code is available at https://github.com/safety-research/faithful-cot.
- Abstract(参考訳): CoT(Chain-of- Thought)推論は、推論トレースが最終解を生成する計算を忠実に反映している場合にのみ、言語モデルを監視するのに有用である。
しかし、モデルはCoTをバイパスするプロンプト・ツー・アンサー・ショートカットを頼りにすることができ、可視的推論の痕跡は、たとえそれが可視であるとしても誤解を招く。
我々は、構造的情報フローの観点からCoTの忠実さを考察する:忠実な推論は、直接の即答ショートカットではなく、インシデントパスからCoTに応答する応答関連情報をルートすべきである。
この視点は、3つの相補的な性質、十分性、完全性、必要性に基づくタスク非依存の枠組みを導き、エントロピー、マスク付きKL、勾配に基づく診断をインスタンス化する。
以上の結果から,これらの指標は示唆された推論における信頼度差を外部で判定し,勾配に基づく測定がより安定なKLに基づく診断の低エントロピー障害モードを同定した。
本分析では, 注意マスク, 後向きのみの勾配マスキング, CoT 勾配, 即時表現の逆摂動など, 検証対象のオンラインRLに対する更新時介入を導入する。
Acrossは、算術的、報奨可能なコード修復、DAPO-Mathモデルをヒントなしで訓練したが、間違ったヒント注入で評価し、我々の介入は、行動指標と構造指標をより強力なCoTメディエーションにシフトさせる。
特に、CoTではショートカットとリターンハックの振る舞いをより透明にし、タスク非依存の忠実度指標を改善します。
以上の結果から,訓練中の情報フローの制御は,より忠実で監視可能なCoT推論への実践的な経路であることが示唆された。
コードはhttps://github.com/safety-research/faithful-cot.comで入手できる。
関連論文リスト
- Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy [43.942072229910515]
思考の連鎖(CoT)推論は、大きな言語モデルの問題解決能力を向上する。
生成された推論トレースは、モデルの実際の決定プロセスを忠実に反映しないかもしれない。
本稿では,CIE-Scorerを用いたCIE-ScorerによるCoT不整合検出手法を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:54:55Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation [9.455881608413137]
CoT(Chain-of-Thought)はモデル推論を著しく促進するが、内部メカニズムはよく分かっていない。
我々は,CoTの運用原理を,デコーディング,プロジェクション,アクティベーションの各フェーズにまたがる情報の流れを逆トレースすることで解析する。
論文 参考訳(メタデータ) (2025-07-28T12:11:16Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。