論文の概要: Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents
- arxiv url: http://arxiv.org/abs/2603.12634v1
- Date: Fri, 13 Mar 2026 04:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.894957
- Title: Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents
- Title(参考訳): LLMエージェントに対する予算対応のバリューツリー検索
- Authors: Yushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li,
- Abstract要約: Budget-Aware Value Tree (BAVT) は、動的検索ツリーとしてマルチホップ推論をモデル化するトレーニングフリーの推論時間フレームワークである。
BAVTは一貫して並列サンプリングベースラインを上回っている。
- 参考スコア(独自算出の注目度): 40.18150559561834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least $1-ε$ under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at $4\times$ the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.
- Abstract(参考訳): テストタイムスケーリングは、LLMエージェントの信頼性を向上させる上で、主要なパラダイムとなっているが、現在のアプローチでは、計算を豊富なリソースとして扱い、冗長なステップやデッドエンドのトラジェクトリ上で、エージェントがトークンやツールの予算を省くことができる。
既存の予算対応手法は、高価な微調整を必要とするか、または、実行途中で介入できない粗い軌道レベルのヒューリスティックに依存している。
LLMバックボーン内のステップレベル値推定によって導かれる動的探索木としてマルチホップ推論をモデル化する,トレーニング不要な推論時間フレームワークであるBudget-Aware Value Tree (BAVT)を提案する。
もうひとつの重要な革新は、残りのリソース比をノード値に対する自然なスケーリング指数として使用する予算条件のノード選択機構であり、予算が枯渇するにつれて、広義の探索から強欲な搾取への、原則化されたパラメータフリーな移行を提供する。
LLM自己評価の自信の過剰さに対処するため、BAVTは絶対状態品質よりも相対的な進捗をスコアする残留値予測器を採用し、不定形または冗長なツールコールの信頼性の高いプルーニングを可能にする。
さらに、BAVT が少なくとも 1-ε$ の確率で終端応答に達することを明示する理論収束保証を提供する。
2つのモデルファミリーにわたる4つのマルチホップQAベンチマークの大規模な評価は、BAVTが並列サンプリングベースラインを一貫して上回っていることを示している。
最も注目すべきは、厳格な低予算制約の下でのBAVTは、リソース割り当ての4/timesでベースラインパフォーマンスを上回り、インテリジェントな予算管理がブルートフォースの計算スケーリングを根本的に上回っていることである。
関連論文リスト
- $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Scalable and Reliable State-Aware Inference of High-Impact N-k Contingencies [4.588028371034407]
ACパワーフローやACOPFによる全機能停止組合せの排他的評価は日常的な操作では不可能である。
本稿では,高インパクトな$N!-k$の停止シナリオを直接生成するように設計された,スケーラブルでステートアウェアな並行性推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T06:55:59Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Enhanced-FQL($λ$), an Efficient and Interpretable RL with novel Fuzzy Eligibility Traces and Segmented Experience Replay [0.0]
Enhanced-FQL($$)は、n-step fuzzy TDやfuzzyA($$)ベースラインと比較して、優れたサンプル効率と分散の低減を実現している。
フレームワーク固有の解釈可能性と計算効率と理論的収束保証が組み合わさって、安全クリティカルなアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-07T20:59:18Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。