論文の概要: BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
- arxiv url: http://arxiv.org/abs/2508.17196v1
- Date: Sun, 24 Aug 2025 03:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.395258
- Title: BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
- Title(参考訳): BudgetThinker: 制御トークンによる予算対応LDM推論の強化
- Authors: Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Ya-Qin Zhang, Yuanchun Li,
- Abstract要約: BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。
我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
- 参考スコア(独自算出の注目度): 32.11536981112425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have leveraged increased test-time computation to enhance reasoning capabilities, a strategy that, while effective, incurs significant latency and resource costs, limiting their applicability in real-world time-constrained or cost-sensitive scenarios. This paper introduces BudgetThinker, a novel framework designed to empower LLMs with budget-aware reasoning, enabling precise control over the length of their thought processes. We propose a methodology that periodically inserts special control tokens during inference to continuously inform the model of its remaining token budget. This approach is coupled with a comprehensive two-stage training pipeline, beginning with Supervised Fine-Tuning (SFT) to familiarize the model with budget constraints, followed by a curriculum-based Reinforcement Learning (RL) phase that utilizes a length-aware reward function to optimize for both accuracy and budget adherence. We demonstrate that BudgetThinker significantly surpasses strong baselines in maintaining performance across a variety of reasoning budgets on challenging mathematical benchmarks. Our method provides a scalable and effective solution for developing efficient and controllable LLM reasoning, making advanced models more practical for deployment in resource-constrained and real-time environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、推論能力を高めるためにテスト時の計算量の増加を活用している。
BudgetThinkerは、予算を考慮した推論によるLCMの強化を目的とした新しいフレームワークで、思考プロセスの長さを正確に制御できる。
本稿では,その残額のモデルを継続的に通知するために,推論中に特別な制御トークンを定期的に挿入する手法を提案する。
このアプローチは、2段階の総合的なトレーニングパイプラインと結合されており、予算制約に精通したモデルに精通する Supervised Fine-Tuning (SFT) から始まり、続いてカリキュラムベースのReinforcement Learning (RL) フェーズが続く。
我々は、BudgetThinkerが、数学的なベンチマークに挑戦する様々な推論予算にまたがるパフォーマンスを維持する上で、強力なベースラインをはるかに上回っていることを実証した。
提案手法は,資源制約およびリアルタイム環境への展開において,高度なモデルをより実用的なものにするため,効率的かつ制御可能なLCM推論を開発するためのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [38.57672572913099]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。