Fugu-MT 論文翻訳(概要): Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning

論文の概要: Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2602.11201v1
Date: Wed, 04 Feb 2026 21:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.435489
Title: Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning
Title（参考訳）: チェーン・オブ・ソート推論における忠実度低下のメカニズム的証拠
Authors: Donald Ye, Max Loffgren, Om Kotadia, Linus Wong,
Abstract要約: Chain-of-Thoughtの説明は、言語モデルが複雑な問題を解決する方法を理解するために広く使われている。モデルの意思決定プロセスに個別の推論ステップが忠実かどうかを測定する指標である正規化論理差判定(NLDD)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) explanations are widely used to interpret how language models solve complex problems, yet it remains unclear whether these step-by-step explanations reflect how the model actually reaches its answer, or merely post-hoc justifications. We propose Normalized Logit Difference Decay (NLDD), a metric that measures whether individual reasoning steps are faithful to the model's decision-making process. Our approach corrupts individual reasoning steps from the explanation and measures how much the model's confidence in its answer drops, to determine if a step is truly important. By standardizing these measurements, NLDD enables rigorous cross-model comparison across different architectures. Testing three model families across syntactic, logical, and arithmetic tasks, we discover a consistent Reasoning Horizon (k*) at 70--85% of chain length, beyond which reasoning tokens have little or negative effect on the final answer. We also find that models can encode correct internal representations while completely failing the task. These results show that accuracy alone does not reveal whether a model actually reasons through its chain. NLDD offers a way to measure when CoT matters.
Abstract（参考訳）: CoT(Chain-of-Thought)の説明は、言語モデルが複雑な問題を解決する方法の解釈に広く用いられているが、これらのステップバイステップの説明は、モデルが実際にどのようにその答えに到達したか、あるいは単にポストホックの正当化を反映しているかは、まだ不明である。モデルの意思決定プロセスに個別の推論ステップが忠実かどうかを測定する指標である正規化論理差判定(NLDD)を提案する。私たちのアプローチでは、個々の推論ステップを説明から外し、その答に対するモデルの信頼度を測り、ステップが本当に重要であるかどうかを判断します。これらの測定を標準化することで、NLDDは異なるアーキテクチャ間で厳密なクロスモデル比較を可能にする。構文的、論理的、算術的なタスクで3つのモデルファミリをテストすると、連鎖長の70～85%で一貫した推論ホライゾン(k*)が見つかる。また、モデルがタスクを完全に失敗しながら、正しい内部表現をエンコードできることもわかりました。これらの結果は、精度だけでは、モデルがその連鎖を通じて実際に原因であるかどうかを明らかにしないことを示している。 NLDDはCoTがいつ重要かを測定する方法を提供する。

関連論文リスト

Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文参考訳（メタデータ） (2026-01-30T16:45:16Z)
Can Aha Moments Be Fake? Identifying True and Decorative Thinking Steps in Chain-of-Thought [72.45900226435289]
大きな言語モデル(LLM)は、テスト時に長いチェーン・オブ・ソート(CoT)を生成することができ、複雑なタスクを解決できる。提案したTrue Thinking Score (TTS) を用いて、各推論ステップの段階的因果関係がモデルの最終予測に与える影響を測定する。我々は、LLMの潜在空間におけるTrueThinking方向を同定し、モデルに特定のCoTステップの実行や無視を強制することができる。
論文参考訳（メタデータ） (2025-10-28T20:14:02Z)
Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。 CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文参考訳（メタデータ） (2025-09-06T05:33:17Z)
Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文参考訳（メタデータ） (2025-09-05T16:40:13Z)
Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文参考訳（メタデータ） (2025-05-19T23:29:23Z)
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか? 我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文参考訳（メタデータ） (2025-04-29T12:39:07Z)
Verbosity Tradeoffs and the Impact of Scale on the Faithfulness of LLM Self-Explanations [19.32573526975115]
我々は13家族の75モデルにわたる反事実的忠実度を分析した。この研究は、相関対実テスト(CCT)の簡易版であるphi-CCTとF-AUROCの2つの新しい指標を動機付けている。より大きく、より有能なモデルは、私たちが考慮しているすべての指標に一貫して忠実です。
論文参考訳（メタデータ） (2025-03-17T17:59:39Z)
Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文参考訳（メタデータ） (2024-06-23T15:50:22Z)
Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文参考訳（メタデータ） (2023-07-17T01:08:39Z)
Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文参考訳（メタデータ） (2022-10-07T06:50:23Z)
Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文参考訳（メタデータ） (2020-11-04T10:25:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。