論文の概要: Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts
- arxiv url: http://arxiv.org/abs/2605.07307v1
- Date: Fri, 08 May 2026 06:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.850045
- Title: Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts
- Title(参考訳): 難易度連鎖を再考する: 言語モデルの推論は、スパース、オーダーシャッフルのチェーンから回答を抽出できる
- Authors: Yi-Chang Chen, Feng-Ting Liao, Da-shan Shiu, Hung-yi Lee,
- Abstract要約: 現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
我々は、モデル生成推論連鎖に適用した、系統的な介入パイプライン、除去、マスキング、シャッフル、ノイズ注入により、両方の仮定に挑戦する。
解答抽出は, スパース, 秩序不感, 構造的に堅牢な情報基板上で行う。
- 参考スコア(独自算出の注目度): 51.84894623128418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reasoning language models generate dense, sequential chain-of-thought traces implicitly assuming that every token contributes and that steps must be consumed in order. We challenge both assumptions through a systematic intervention pipeline--removal, masking, shuffling, and noise injection--applied to model-generated reasoning chains across three models and three benchmarks. Our findings are counterintuitive on three dimensions. Order: Does the sequential order of a reasoning chain matter for answer extraction? No--line-level shuffling reduces accuracy by less than 0.5 pp; word-level shuffling retains 62%-89% accuracy; only token-level shuffling collapses to near zero. Pretrained-only and instruction-tuned variants exhibit near-identical tolerance (78.67% vs. 78.00% under line shuffling), indicating order-independence originates from pretraining rather than reasoning-specific fine-tuning. Dense: Is all the information in a reasoning chain important for answer extraction? No--masking numeric digits collapses accuracy to exactly 0%, while masking alphabetic prose improves accuracy by 4.7 pp. Robustness: Is a reasoning chain that is both order-shuffling and non-dense still robust? Yes--the most aggressively reduced representation (all natural language removed, lines arbitrarily shuffled) still achieves 83% accuracy, and injecting false answers at 3x true-answer frequency leaves accuracy unchanged (83.3%->83.3%), falsifying a frequency-based extraction account. These results establish that answer extraction operates on a sparse, order-insensitive, and structurally robust informational substrate, opening paths toward parallelized and token-efficient reasoning generation.
- Abstract(参考訳): 現代の推論言語モデルは、すべてのトークンが寄与し、ステップを順番に消費しなければならないと暗黙的に仮定して、シーケンシャルな連鎖トレースを生成する。
3つのモデルと3つのベンチマークにまたがるモデル生成推論チェーンに応用した、除去、マスキング、シャッフル、ノイズ注入という系統的な介入パイプラインを通じて、両方の仮定に挑戦する。
私たちの発見は3次元では直感的ではない。
順序: 答え抽出のための推論連鎖の逐次順序は重要か?
No-line-level shuffling は 0.5 pp 未満の精度で精度を低下させ、ワードレベル shuffling は 62%-89% の精度を維持し、トークンレベル shuffling のみがほぼ 0 に崩壊する。
訓練済みと訓練済みの変種は、ほぼ同一の耐性を示す(ラインシャッフルでは78.67%対78.00%)。
Dense: 答えの抽出には,すべての情報が必要なのでしょうか?
no-masking 数値桁は精度を正確に0%に低下させ、アルファベットの散文をマスキングすると精度が4.7 pp 向上する。
ロバストネス: 注文シャッフルとナンセンスの両方の推論チェーンは、依然として堅牢なのでしょうか?
もっとも積極的な表現(全ての自然言語が削除され、任意にシャッフルされた線)は83%の精度を保ち、3倍の真答えの周波数の葉に偽の答えを注入し(83.3%->83.3%)、周波数ベースの抽出アカウントを偽造する。
これらの結果は、解答抽出がスパース、秩序不感、構造的に堅牢な情報基板上で動作し、並列化およびトークン効率の推論生成への経路を開くことを証明している。
関連論文リスト
- Large Language Models Decide Early and Explain Later [47.20810161393936]
本研究では, 強制解の完成度を用いた推理段階における予測解の進化について検討する。
プローブベースの停止を含むシンプルさは、クエリ毎の推論トークン使用量を500トークン削減できることを示す。
論文 参考訳(メタデータ) (2026-04-24T06:26:24Z) - The Detection-Extraction Gap: Models Know the Answer Before They Can Say It [1.423262366328995]
部分的な接頭辞から解答が回復した後に連鎖トークンが生成されることを示す。
早期接頭辞からの無料継続は、10%のトレースでも正しい回答を回復するが、強制抽出はこれらのケースの42%で失敗する。
検出と抽出の両方に自由継続を利用するブラックボックス適応早期退避(BAEE)を提案する。
論文 参考訳(メタデータ) (2026-04-08T02:47:31Z) - LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models [0.0]
本稿では,信頼に基づくアンマスキーを論理ロール誘導アンマスキーに置き換える推論時間手法であるLogicDiffを紹介する。
依存関係順序付きスケジューラは、論理的依存関係順序でトークンをアンマスクする。
LogicDiffは、GSM8Kでは22.0%から60.7%に、MATH-500では23.6%から23.6%に改善した。
論文 参考訳(メタデータ) (2026-03-24T13:08:10Z) - DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows [20.319113495948294]
我々は多段階推論過程をノイズMDPとして定式化する。
DenoiseFlowは3つの調整段階を通じてプログレッシブなdenoisingを行うクローズドループフレームワークである。
論文 参考訳(メタデータ) (2026-02-28T08:11:38Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models [22.525318796588568]
シンク・アット・ハード(Think-at-Hard, TaH)は、ハードトークンでのみ深く反復する動的潜在思考法である。
TaHは5つの挑戦的なベンチマークで推論のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-11-11T18:57:02Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。