論文の概要: Steering LLM Thinking with Budget Guidance
- arxiv url: http://arxiv.org/abs/2506.13752v1
- Date: Mon, 16 Jun 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.204939
- Title: Steering LLM Thinking with Budget Guidance
- Title(参考訳): 予算誘導によるLCMのステアリング
- Authors: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan,
- Abstract要約: 予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
- 参考スコア(独自算出の注目度): 48.65894557568655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent deep-thinking large language models often reason extensively to improve performance, but such lengthy reasoning is not always desirable, as it incurs excessive inference costs with disproportionate performance gains. Controlling reasoning length without sacrificing performance is therefore important, but remains challenging, especially under tight thinking budgets. We propose budget guidance, a simple yet effective method for steering the reasoning process of LLMs toward a target budget without requiring any LLM fine-tuning. Our approach introduces a lightweight predictor that models a Gamma distribution over the remaining thinking length during next-token generation. This signal is then used to guide generation in a soft, token-level manner, ensuring that the overall reasoning trace adheres to the specified thinking budget. Budget guidance enables natural control of the thinking length, along with significant token efficiency improvements over baseline methods on challenging math benchmarks. For instance, it achieves up to a 26% accuracy gain on the MATH-500 benchmark under tight budgets compared to baseline methods, while maintaining competitive accuracy with only 63% of the thinking tokens used by the full-thinking model. Budget guidance also generalizes to broader task domains and exhibits emergent capabilities, such as estimating question difficulty. The source code is available at: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
- Abstract(参考訳): 最近の深く考えられた大きな言語モデルは、しばしばパフォーマンスを改善するために広範囲に理由付けをするが、このような長い推論は、不均等なパフォーマンス向上を伴う過度の推論コストを発生させるため、必ずしも望ましいとは限らない。
したがって、性能を犠牲にすることなく推論の長さを制御することは重要であるが、特に厳格な思考予算の下では困難なままである。
我々は,LLMの微調整を必要とせず,目標予算に向けてLLMの推理過程を簡易かつ効果的に操る手法である予算ガイダンスを提案する。
提案手法では,次世代のガンマ分布を残りの思考時間にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
予算指導により思考長の自然な制御が可能となり、また、問題となる数学ベンチマークの基準法よりも重要なトークン効率が向上する。
例えば、ベースライン法に比べて厳格な予算の下でMATH-500ベンチマークで最大26%の精度向上を達成する一方で、完全な思考モデルで使用される思考トークンの63%で競争精度を維持している。
予算指導はまた、より広範なタスクドメインに一般化し、質問の難易度を推定するなど、創発的な能力を示す。
ソースコードは、https://github.com/UMass-Embodied-AGI/BudgetGuidance.comで入手できる。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Token-Budget-Aware LLM Reasoning [33.81357562939748]
CoT(Chain-of-Thought)推論はトークンの使用にかなりのオーバーヘッドをもたらす。
トークン予算を考慮したLCM推論フレームワークを提案する。
提案手法は,CoT推論におけるトークンコストをわずかな性能低下のみで効果的に低減する。
論文 参考訳(メタデータ) (2024-12-24T16:55:45Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。