論文の概要: The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
- arxiv url: http://arxiv.org/abs/2605.22870v1
- Date: Wed, 20 May 2026 00:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.009463
- Title: The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
- Title(参考訳): 読み出しショートカット:小言語モデルにおける位置数コピーによる算数CoT読み出しの優位性
- Authors: Ming Liu,
- Abstract要約: CoT(Chain-of- Thought)プロンプトは、小さな言語モデルでの算術には必要だが、そのステップをシャッフルするとほとんどの性能が保たれる。
GSM8K 上の3つの 1-3B 命令調整 LM において,プリフィックス完了により回答読解段階を分離し,位置ショートカットを同定する。
金の回答は54-92ppの精度(各モデルの教師が調整した天井の89-92%)であり、誤った項目であっても最終回答は最後の95-96%のCoT番号と一致する。
- 参考スコア(独自算出の注目度): 4.738949927143789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance. What does CoT contribute if not logical sequencing? In three 1-3B instruction-tuned LMs on GSM8K, we isolate the answer-readout stage via prefix completion and identify a positional shortcut: the model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate reasoning. Gold-answer presence accounts for 54-92 pp of accuracy (89-92% of each model's teacher-forcing ceiling); even on incorrect items, the final answer matches the last CoT number 95-96% of the time. The copy channel takes precedence over retained-context completion: replacing the trailing number with a wrong value collapses accuracy to near-zero despite correct intermediates, yet removing it recovers 5-32 pp above that floor--even single-step arithmetic the model can otherwise perform is suppressed when a copyable number is present. Qwen and Llama copy novel distractors 87-95% of the time; Gemma gates selectively. Head-level ablation implicates architecture-specific head sets; the effect replicates on GSM-Symbolic. On non-arithmetic BBH tasks, shuffle retention drops sharply; at 7-8B, content-selective gating emerges. Step-level faithfulness evaluations risk conflating positional answer transport with genuine computation--a failure mode for CoT-based oversight.
- Abstract(参考訳): CoT(Chain-of- Thought)プロンプトは、小さな言語モデルでの算術には必要だが、そのステップをシャッフルするとほとんどの性能が保たれる。
CoTは論理的なシークエンシングで何に貢献しますか?
GSM8K 上の 3 つの 1-3B 命令調整 LM において,その解答読解段階をプレフィックス完備化により分離し,任意の数で解答区切り前の後続位置を占有するモデルコピーを中間的推論によらず同定する。
金の回答は54-92ppの精度(各モデルの教師強制天井の89-92%)であり、誤った項目であっても最終回答は95-96%のCoT番号と一致する。
コピーチャンネルは、保持されたコンテキストの完了よりも優先され、正しい中間値にもかかわらず、後続番号を間違った値に置き換えると精度がほぼゼロに低下するが、そのフロア上5〜32 ppを除去する。
QwenとLlamaは87-95%の時間、Gemmaゲートを選択的にコピーした。
ヘッドレベルのアブレーションはアーキテクチャ固有のヘッドセットを含意し、GSM-シンボリックに複製する。
非算術的なBBHタスクでは、シャッフル保持は急激に低下し、7-8Bでは、内容選択的なゲーティングが出現する。
ステップレベルの忠実度評価は、CoTに基づく監視の失敗モードである、真の計算による位置対応輸送の拡散リスクを評価する。
関連論文リスト
- Uncovering the Representation Geometry of Minimal Cores in Overcomplete Reasoning Traces [56.497263592610295]
言語モデルは、しばしば長いチェーン・オブ・ソート・トレースを生成するが、最終的な予測を維持するのに、この理由がどの程度必要かは定かではない。
オーバーコンプリート推論トレースのレンズを通してこれを研究する。
我々は最小のコアを最終回答または予測分布を保存するステップの最小サブセットとして定義する。
論文 参考訳(メタデータ) (2026-05-14T04:35:45Z) - The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies [0.0]
補正研究は、どのステップが計算上重要なのかを、ステップが破損した場合の精度損失から推定する。
ベンチマークチェーンが明確な終端応答ラインに終止符を打つと、これらのテストは中間計算を行う場所ではなく、主に空腹者の配置を計測する。
論文 参考訳(メタデータ) (2026-05-11T16:26:50Z) - Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts [51.84894623128418]
現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
論文 参考訳(メタデータ) (2026-05-08T06:15:50Z) - Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning [0.0]
本研究では,SudokuExtreme上の単一ブロックユニバーサルトランス (UT) のスクラッチパッドとして学習したメモリトークンについて検討した。
メモリトークンは、テストされたすべての構成で、メモリトークンのない構成は、非自明なパフォーマンスです。
論文 参考訳(メタデータ) (2026-04-23T18:30:01Z) - Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks [5.523132953818281]
CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
タイプノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
論文 参考訳(メタデータ) (2026-03-21T09:32:28Z) - Short-Context Dominance: How Much Local Context Natural Language Actually Needs? [48.429870236229696]
正確な全文予測を再現するのに必要となる最小コンテキスト長を計測する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
そこで本研究では,実際の次点知識を必要としないMCL(Distributedally Aware MCL)の実践的プロキシについて紹介する。
論文 参考訳(メタデータ) (2025-12-08T22:25:00Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。