論文の概要: Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.16122v1
- Date: Thu, 22 May 2025 01:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.969732
- Title: Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
- Title(参考訳): 計画と予算:大規模言語モデル推論における有効かつ効率的なテスト時間スケーリング
- Authors: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou,
- Abstract要約: Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
- 参考スコア(独自算出の注目度): 19.258292534503887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the $E^3$ metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in $E^3$. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な成功を収めているが、その推論は計算的に非効率である。
単純なクエリであっても,モデルが冗長および接尾辞的推論トレースを生成するという,多くの一般的なLCMにおいて,共通の障害モードを観測する。
最近の研究は、固定されたトークン予算を強制することによってこれを緩和しようと試みているが、これは特に難しい問題において、過小評価に繋がる可能性がある。
経験的分析を通して、この非効率性は、しばしば未解決の問題解決戦略に起因すると同定する。
これを形式化する理論モデルBBAM(Bayesian Budget Allocation Model)を開発し、不確実性の異なるサブクエスト列として推論し、正確性と計算効率のトレードオフを捉えるために$E^3$メトリックを導入する。
BBAMの理論的結果に基づいて、複雑なクエリをサブクエストに分解し、適応スケジューリングを用いた推定複雑性に基づいてトークン予算を割り当てるモデルに依存しないテストタイムフレームワークであるPlan-and-Budgetを提案する。
Plan-and-Budgetは様々なタスクやモデルの推論効率を改善し、最大で70%の精度向上、39%のトークン削減、+187.5%のE^3$を達成している。
特に、より小さなモデル(DS-Qwen-32B)を増し、より大きなモデル(DS-LLaMA-70B)の効率に匹敵する。
コードは匿名.4open.science/r/P-and-B-6513/で利用可能です。
関連論文リスト
- Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Reqo: A Robust and Explainable Query Optimization Cost Model [2.184775414778289]
GRU(Gated Recurrent Units)によって集約された双方向グラフニューラルネットワーク(Bi-GNN)に基づくツリーモデルアーキテクチャを提案する。
我々は,確率的MLを用いて,コスト見積の不確実性を効果的に定量化する,新しい学習とランクのコストモデルを実装した。
さらに,学習型コストモデルに特化して設計された最初の説明可能性手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:48:51Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。