論文の概要: The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
- arxiv url: http://arxiv.org/abs/2605.10799v1
- Date: Mon, 11 May 2026 16:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.983696
- Title: The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies
- Title(参考訳): 最後の言葉が勝つ: チェーン・オブ・ソート(Chain-of-Thought)の崩壊研究で不一致
- Authors: Gabriel Garcia,
- Abstract要約: チェーン・オブ・シント(CoT)の忠実度を評価するための主要なツールである破壊研究は、どのチェーン位置が「計算上重要な」のかを特定する。
明示的な終末応答文を持つチェーンに対して、標準における支配的な形式である汚職研究は、応答テキストがどこに現れるか、どこで発生しないかを検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Corruption studies, the primary tool for evaluating chain-of-thought (CoT) faithfulness, identify which chain positions are "computationally important" by measuring accuracy when steps are replaced with errors. We identify a systematic confound: for chains with explicit terminal answer statements, the dominant format in standard benchmarks, corruption studies detect where the answer text appears, not where computation occurs. A within-dataset format ablation provides the key evidence: on standard GSM8K chains ending with "the answer is X," removing only the answer statement, preserving all reasoning, collapses suffix sensitivity ~19x at 3B (N=300, p=0.022). Conflicting-answer experiments quantify the causal mechanism: at 7B, CC accuracy drops to near-zero (<=0.02) across five architecture families; the followed-wrong rate spans 0.63-1.00 at 3B-7B and attenuates at larger scales (0.300 at Phi-4-14B, ~0.01 at 32B). A within-stable 7B replication (9.3x attenuation, N=76, p=7.8e-3; Qwen3-8B N=299, p=0.004) provides converging evidence, and the pattern replicates on MATH (DeepSeek-R1-7B: 10.9x suffix-survival recovery). On chains without answer suffixes the same protocol identifies the prefix as load-bearing (Delta=-0.77, p<10^-12). Generation-time probes confirm a dissociation: the answer is not early-determined during generation (early commitment <5%), yet at consumption time model outputs systematically follow the explicit answer text. The format-determination effect persists through 14B (8.5x ratio, p=0.001) and converges toward zero at 32B. We propose a three-prerequisite protocol (question-only control, format characterization, all-position sweep) as a minimum standard for corruption-based faithfulness studies.
- Abstract(参考訳): チェーン・オブ・ソート(CoT)の忠実さを評価するための主要なツールである破壊研究は、どのチェーン位置が「計算上重要な」のかを、ステップをエラーに置き換えた際の精度を測定することによって特定する。
明示的な終端応答文を持つチェーンに対して、標準ベンチマークにおける支配的なフォーマットは、解答テキストがどこに現れるか、どこで計算が行われるかを検出する。
標準の GSM8K 鎖が "the answer is X" で終わると、答え文のみを取り除き、すべての推論を保ち、接尾辞の感度を 3B (N=300, p=0.022) で ~19x に分解する。
7BではCC精度が5つのアーキテクチャファミリでほぼゼロ(<=0.02)に低下し、3B-7Bでは0.63-1.00、Phi-4-14Bでは0.300、32Bでは0.01となる。
安定な7B複製(9.3x減衰、N=76, p=7.8e-3; Qwen3-8B N=299, p=0.004)は収束する証拠を与え、MATH(DeepSeek-R1-7B: 10.9x suffix-survival recovery)のパターン複製を行う。
応答サフィックスのないチェーンでは、同じプロトコルがプレフィックスをロードベアリング(Delta=-0.77, p<10^-12)として識別する。
生成時プローブは解離を確認する: 解答は生成時に早期決定されない(初期コミットメント <5%)が、消費時モデルでは、出力は明示的な解答テキストを体系的に従う。
形式決定効果は14B (8.5x ratio, p=0.001) を通して持続し、32Bで0に収束する。
本稿では,汚職に基づく忠実度研究の最低基準として,三条件プロトコル(クエクションのみの制御,形式的特徴,オールポジションスイープ)を提案する。
関連論文リスト
- Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts [51.84894623128418]
現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
論文 参考訳(メタデータ) (2026-05-08T06:15:50Z) - Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes [4.738949927143789]
隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
論文 参考訳(メタデータ) (2026-05-07T05:58:38Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought [0.0]
本研究は,ステップごとの解答完了をサンプリングし,正当性を予測することによって,推論ステップ間の不確実性のダイナミクスの形状を把握できるかどうかを考察する。
エントロピー-軌道単調性(Entropy-trajectory monotonicity)を導入する。
論文 参考訳(メタデータ) (2026-03-19T14:17:16Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。