論文の概要: Not All Turns Are Equally Hard: Adaptive Thinking Budgets For Efficient Multi-Turn Reasoning
- arxiv url: http://arxiv.org/abs/2604.05164v1
- Date: Mon, 06 Apr 2026 20:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.486047
- Title: Not All Turns Are Equally Hard: Adaptive Thinking Budgets For Efficient Multi-Turn Reasoning
- Title(参考訳): すべての曲がり角が等しく硬くはない: 効率的なマルチターン推論のための適応的思考予算
- Authors: Neharika Jali, Anupam Nayak, Gauri Joshi,
- Abstract要約: 逐次計算割当問題としてマルチターン推論を定式化し,多目的マルコフ決定過程としてモデル化する。
我々は,グローバル・パー・プロブレム・トークン制約を尊重しつつ,タスクの精度を最大化する予算配分政策であるターン・アダプティブ・バッジを提案する。
我々は,すべてのサブクエストの計画が利用可能であるシステムに対して,会話履歴と過去および将来のサブクエストに基づいてトークンを予算化する予算配分政策であるTAB All-SubQを提案し,ベースライン上で最大40%のトークンを節約する。
- 参考スコア(独自算出の注目度): 14.194667934432443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLM reasoning performance plateau, improving inference-time compute efficiency is crucial to mitigate overthinking and long thinking traces even for simple queries. Prior approaches including length regularization, adaptive routing, and difficulty-based budget allocation primarily focus on single-turn settings and fail to address the sequential dependencies inherent in multi-turn reasoning.In this work, we formulate multi-turn reasoning as a sequential compute allocation problem and model it as a multi-objective Markov Decision Process. We propose TAB: Turn-Adaptive Budgets, a budget allocation policy trained via Group Relative Policy Optimization (GRPO) that learns to maximize task accuracy while respecting global per-problem token constraints. Consequently, TAB takes as input the conversation history and learns to adaptively allocate smaller budgets to easier turns and save appropriate number of tokens for the crucial harder reasoning steps. Our experiments on mathematical reasoning benchmarks demonstrate that TAB achieves a superior accuracy-tokens tradeoff saving up to 35% tokens while maintaining accuracy over static and off-the-shelf LLM budget baselines. Further, for systems where a plan of all sub-questions is available apriori, we propose TAB All-SubQ, a budget allocation policy that budgets tokens based on the conversation history and all past and future sub-questions saving up to 40% tokens over baselines.
- Abstract(参考訳): LLM推論性能の指標として、単純なクエリであっても、過大な考えと長い思考のトレースを緩和するために、推論時間計算効率を改善することが重要である。
本研究は,マルチターン推論を逐次計算割当問題として定式化し,多目的マルコフ決定プロセスとしてモデル化する。
グループ相対政策最適化(GRPO: Group Relative Policy Optimization)を通じて訓練された予算配分政策であるターン・アダプティブ・バッジ(TAB: Turn-Adaptive Budgets)を提案する。
その結果、TABは会話履歴を入力として、より小さな予算を適応的に割り当てることを学び、より難しい推論ステップのために適切な数のトークンを節約する。
数式推論ベンチマーク実験により,TABは静的および既成のLCM予算ベースラインの精度を維持しつつ,最大35%のトークンを保存し,精度の高いトレードオフを実現することが示された。
さらに,全てのサブクエストの計画が利用可能となるシステムに対しては,会話履歴と過去および将来のサブクエストを基準として最大40%のトークンを節約する予算配分政策であるTAB All-SubQを提案する。
関連論文リスト
- Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models [6.002670452103349]
大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
論文 参考訳(メタデータ) (2026-02-01T13:58:23Z) - Optimal Budgeted Adaptation of Large Language Models [8.207283283207138]
ラベル付きデータの可用性と下流の精度のトレードオフは、大きな言語モデルにおいて依然として中心的な課題である。
そこで本稿では,LLM をコンテキスト型 Stackelberg ゲームとしてキャストすることで,Emphbudget-aware による微調整を指導するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T01:08:15Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition [11.094392304740134]
我々は,厳密なグローバルトークン制約の下で,複数のタスクに対する予算付き推論時間推論について検討した。
この視点はメタ認知的要件を強調し、タスクの難しさを予測し、投資よりもリターンを推定する。
2段階のフレームワークであるROI-Reasoningを提案する。
論文 参考訳(メタデータ) (2026-01-07T11:30:55Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。