論文の概要: Budget-Aware Tool-Use Enables Effective Agent Scaling
- arxiv url: http://arxiv.org/abs/2511.17006v1
- Date: Fri, 21 Nov 2025 07:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.919581
- Title: Budget-Aware Tool-Use Enables Effective Agent Scaling
- Title(参考訳): Budget-Aware Tool-Useは効果的なエージェントスケーリングを可能にする
- Authors: Tengxiao Liu, Zifeng Wang, Jin Miao, I-Hung Hsu, Jun Yan, Jiefeng Chen, Rujun Han, Fangyuan Xu, Yanfei Chen, Ke Jiang, Samira Daruki, Yi Liang, William Yang Wang, Tomas Pfister, Chen-Yu Lee,
- Abstract要約: 大規模言語モデル(LLM)におけるタスク間のテスト時間計算のスケーリングによるパフォーマンス向上
本研究では,これらのエージェントを,Web検索エージェントを中心に,明示的なツールコール予算の下で効果的にスケールする方法について検討する。
私たちは、エージェントに継続的な予算意識を提供する軽量プラグインであるBudget Trackerを紹介します。
- 参考スコア(独自算出の注目度): 82.6942342482552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling test-time computation improves performance across different tasks on large language models (LLMs), which has also been extended to tool-augmented agents. For these agents, scaling involves not only "thinking" in tokens but also "acting" via tool calls. The number of tool calls directly bounds the agent's interaction with the external environment. However, we find that simply granting agents a larger tool-call budget fails to improve performance, as they lack "budget awareness" and quickly hit a performance ceiling. To address this, we study how to scale such agents effectively under explicit tool-call budgets, focusing on web search agents. We first introduce the Budget Tracker, a lightweight plug-in that provides the agent with continuous budget awareness, enabling simple yet effective scaling. We further develop BATS (Budget Aware Test-time Scaling), an advanced framework that leverages this awareness to dynamically adapt its planning and verification strategy, deciding whether to "dig deeper" on a promising lead or "pivot" to new paths based on remaining resources. To analyze cost-performance scaling in a controlled manner, we formalize a unified cost metric that jointly accounts for token and tool consumption. We provide the first systematic study on budget-constrained agents, showing that budget-aware methods produce more favorable scaling curves and push the cost-performance Pareto frontier. Our work offers empirical insights toward a more transparent and principled understanding of scaling in tool-augmented agents.
- Abstract(参考訳): テスト時間計算のスケーリングは、ツール拡張されたエージェントにも拡張された大規模言語モデル(LLM)上のさまざまなタスクのパフォーマンスを改善する。
これらのエージェントには、トークンの"検討"だけでなく、ツールコールによる"実行"も必要です。
ツール呼び出しの数は、エージェントの外部環境との相互作用を直接束縛する。
しかし、単にエージェントにより大きなツールコール予算を与えるだけでは、"予算の意識"が欠如し、すぐにパフォーマンスの天井に達するため、パフォーマンスを改善することができません。
そこで本研究では,これらのエージェントを,Web検索エージェントを中心に,明示的なツールコール予算の下で効果的にスケールする方法について検討する。
最初にBudget Trackerを紹介します。これは軽量なプラグインで、エージェントに継続的な予算意識を提供し、シンプルで効果的なスケーリングを可能にします。
BATS(Budget Aware Test-time Scaling)は、この認識を活用して計画と検証戦略を動的に適応する高度なフレームワークで、有望なリードで"深く"進むか、あるいは残りのリソースに基づいた新たなパスに"ピボット"するかを判断する。
コストパフォーマンスのスケーリングを制御された方法で解析するため,トークンとツールの消費を共同で考慮した統一コスト指標を定式化した。
予算制約のあるエージェントに関する最初の体系的研究を行い、予算制約のある手法がより好適なスケーリング曲線を生み出し、コストパフォーマンスのParetoフロンティアを推し進めることを示す。
私たちの研究は、ツール強化エージェントのスケーリングに関する、より透明で原則化された理解に対する実証的な洞察を提供する。
関連論文リスト
- AutoTool: Efficient Tool Selection for Large Language Model Agents [10.061664247482488]
LLMの推論と意思決定能力を活用することで、複雑なタスクを自動化する強力なツールとして、LLM(Large Language Model)エージェントが登場した。
しかしながら、大きなボトルネックは、ツール選択の推論コストの高さにある。特に、各ステップで使用するツールを決定するために、繰り返しLLMを呼び出すReActのようなアプローチでは。
ツール使用慣性(Tool use inertia)という重要な経験的観測を生かして、繰り返しLLM推論をバイパスするグラフベースの新しいフレームワークであるAutoToolを提案する。
論文 参考訳(メタデータ) (2025-11-18T16:41:48Z) - JSPLIT: A Taxonomy-based Solution for Prompt Bloating in Model Context Protocol [1.2166472806042592]
本稿では,分類学,ツール選択アルゴリズム,LITを評価するためのデータセットについて述べる。
その結果,LITはエージェントが効果的に反応する能力を著しく損なうことなく,プロンプトサイズを著しく減少させることがわかった。
論文 参考訳(メタデータ) (2025-10-16T10:28:23Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Unpacking the Black Box: Regulating Algorithmic Decisions [1.283555556182245]
本稿では,貸付,医療検査,雇用などの高額なアプリケーションで使用される「ブラックボックス」アルゴリズムの監視モデルを提案する。
複雑なアルゴリズムを許すことは、福祉を改善することができるが、その利益は規制当局の規制方法に依存する。
論文 参考訳(メタデータ) (2021-10-05T23:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。