論文の概要: The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits
- arxiv url: http://arxiv.org/abs/2605.07686v1
- Date: Fri, 08 May 2026 12:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.051543
- Title: The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits
- Title(参考訳): 共用税:富裕層税が減産制限下での可視的結束をいかに損なうか
- Authors: Wenhua Nie, Junlin Liu, Jianan Wu, Zijie Meng, Yilong Fan, Zhang Zijian, Haoran Zheng, Jyh-Shing Roger Jang,
- Abstract要約: 思考の連鎖推論はしばしば、モデルを長く考えることで言語モデル精度を改善するための単調な方法として扱われる。
トレースと最終回答の推論が1つのアウトプットの予算を共有している場合、長いトレースは彼らがサポートしようとしている回答をかき集めることができます。
GSM8K、MATH-500、および5つのBIG-Bench HardタスクをQwen3モデルで3つのスケールで実行し、GSM8KとMATH-500では最大2048トークンまでの予算で非思考モードマッチや優れた思考モードを実現した。
- 参考スコア(独自算出の注目度): 12.316478346055618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought reasoning is often treated as a monotone way to improve language-model accuracy by letting a model think longer. We identify a countervailing effect, the coupling tax: when reasoning traces and final answers share one output-token budget, long traces can crowd out the answer they are meant to support. Across GSM8K, MATH-500, and five BIG-Bench Hard tasks with Qwen3 models at three scales, non-thinking mode matches or outperforms thinking mode on GSM8K and MATH-500 at every budget up to 2048 tokens, while harder tasks shift the crossover to larger budgets. We derive a truncation-waste decomposition, $\mathrm{Acc}_{\mathrm{think}}(b)=α_c F_L(b)+α_t(1-F_L(b))$, that predicts this crossover from chain-length and accuracy statistics and explains inverse scaling within the Qwen family. A DeepSeek-R1-Distill-Llama-8B replication shows the same pattern under a different thinking interface. As a mitigation, split-budget generation decouples reasoning and answer budgets; on full MATH-500, IRIS reaches 74.0% accuracy, a strengthened extraction variant reaches 78.8%, and a fixed non-oracle SC+IRIS gate reaches 83.6%. The results show that test-time reasoning should be evaluated as a budget-allocation problem, not only as a question of whether longer traces are available.
- Abstract(参考訳): 思考の連鎖推論はしばしば、モデルを長く考えることで言語モデル精度を改善するための単調な方法として扱われる。
トレースと最終回答の推論が1つのアウトプットの予算を共有している場合、長いトレースは彼らがサポートしようとしている回答をかき集めることができます。
GSM8K、MATH-500、および5つのBIG-Bench HardタスクをQwen3モデルで3つのスケールで実行し、GSM8KとMATH-500のシンキングモードを最大2048トークンで実行する。
truncation-waste decomposition, $\mathrm{Acc}_{\mathrm{think}}(b)=α_c F_L(b)+α_t(1-F_L(b))$ を導出する。
DeepSeek-R1-Distill-Llama-8Bレプリケーションは、異なる思考インターフェースの下で同じパターンを示す。
MATH-500では、IRISは74.0%、強化された抽出変種は78.8%、固定された非オーラルSC+IRISゲートは83.6%に達する。
その結果, テストタイム推論は, 長期トレースが利用可能かどうかという問題だけでなく, 予算配分問題として評価されるべきであることが示唆された。
関連論文リスト
- SyncThink: A Training-Free Strategy to Align Inference Termination with Reasoning Saturation [11.021989271617835]
我々は、モデルの重みを変更することなく、Chain-of-Thoughtオーバーヘッドを低減する、トレーニングフリーでプラグイン・アンド・プレイのデコーディング手法SyncThinkを提案する。
答えトークンは、初期の推論に弱い従属し、代わりに情報ボトルネックを示す特別なトークン"/think"に注目します。
GSM8K、MMLU、GPQA、BBHを3つのDeepSeek-R1蒸留モデルで実験した結果、SyncThinkの平均Top-1精度は62.00%であることがわかった。
論文 参考訳(メタデータ) (2026-01-07T07:00:15Z) - Complexity Agnostic Recursive Decomposition of Thoughts [3.3864434164156934]
CARD(Complexity Agnostic Recursive Decomposition)は、生成前の問題を予測し、それに応じて分解を適応するフレームワークである。
CARDはGSM8Kで81.4%から89.2%の精度を実現し、トークンコストは固定された分解ベースラインに比べて1.88倍から2.40倍に削減された。
論文 参考訳(メタデータ) (2025-12-10T06:03:42Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization [48.5702580429946]
本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。
簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。
これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
論文 参考訳(メタデータ) (2025-01-29T20:20:48Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。