論文の概要: The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
- arxiv url: http://arxiv.org/abs/2605.10799v2
- Date: Fri, 15 May 2026 04:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.234116
- Title: The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
- Title(参考訳): 最後の言葉が勝つ: チェーン・オブ・ソート(Chain-of-Thought)の崩壊研究で不一致
- Authors: Gabriel Garcia,
- Abstract要約: 補正研究は、どのステップが計算上重要なのかを、ステップが破損した場合の精度損失から推定する。
ベンチマークチェーンが明確な終端応答ラインに終止符を打つと、これらのテストは中間計算を行う場所ではなく、主に空腹者の配置を計測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Corruption studies, the standard tool for evaluating chain-of-thought (CoT) faithfulness, infer which steps are ``computationally important'' from accuracy loss when steps are corrupted. We show that when benchmark chains end with an explicit terminal answer line, as in GSM8K and MATH, these tests largely measure \emph{answer placement} rather than where intermediate computation is carried out. Using matched GSM8K examples, removing only the final answer statement while preserving all reasoning collapses suffix sensitivity by about $19\times$ for Qwen~2.5-3B ($N{=}300$, $p{=}0.022$). Conflicting-answer prompts, which contain correct reasoning but a wrong explicit final answer, drive accuracy to zero or near-zero at 7B across five open-weight model families; wrong-answer following is strong at 3B--7B and attenuates sharply at larger scales. Replications on MATH, within-stable comparisons at 7B, and suffix-free chains show the same pattern in different guises: corruption sensitivity tracks the location of explicit answer text, not a fixed computational depth in the reasoning. Generation-time probes indicate that final answers are rarely early-determined during generation (${<}5\%$ early commitment), yet consumption-time behavior systematically follows explicit answer text. The confound is therefore largely a readout effect when the chain is consumed. We propose a three-prerequisite protocol (question-only control, format characterization, and an all-position sweep) as a practical minimum for future corruption-based faithfulness studies.
- Abstract(参考訳): 失敗研究(英語:corruption study)とは、思考の連鎖(CoT)の忠実さを評価する標準的なツールであり、どのステップが「計算上重要」であるかを、ステップが破損した場合の精度損失から推定する。
GSM8KやMATHのように、ベンチマークチェーンが明確な終端応答ラインで終端すると、これらのテストは中間計算が実行される場所ではなく、主に 'emph{answer placement' を測定する。
一致した GSM8K の例を使用して、最後の回答文のみを削除し、すべての推論を保存しながら、接尾辞の感度を Qwen~2.5-3B$N{=}300$, $p{=}0.022$ で約19\times$ にする。
競合解答プロンプトは、正しい推論を含むが、間違った明確な最終解答を含むもので、5つのオープンウェイトモデルファミリでゼロまたはニアゼロの精度を7Bに駆動する。
MATHと7Bでの不安定な比較、接尾辞のない連鎖の再現は、異なるギルゼスで同じパターンを示す: 汚職感度は、推論における固定された計算深度ではなく、明示的な回答テキストの位置を追跡する。
生成時の調査では、最終回答は生成時に早期決定されることは滅多にない({<}5\%$ early commitment)が、消費時の行動は明示的な回答文に従って体系的に従う。
したがって、この共焦点は、連鎖が消費されるときの読み出し効果である。
本稿では, 将来の汚職に基づく忠実度研究において, 最低限の3つの前提条件プロトコル(クエクションのみの制御, 形式的特徴, オールポジションスイープ)を提案する。
関連論文リスト
- Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts [51.84894623128418]
現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
論文 参考訳(メタデータ) (2026-05-08T06:15:50Z) - Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes [4.738949927143789]
隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
論文 参考訳(メタデータ) (2026-05-07T05:58:38Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought [0.0]
本研究は,ステップごとの解答完了をサンプリングし,正当性を予測することによって,推論ステップ間の不確実性のダイナミクスの形状を把握できるかどうかを考察する。
エントロピー-軌道単調性(Entropy-trajectory monotonicity)を導入する。
論文 参考訳(メタデータ) (2026-03-19T14:17:16Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。