論文の概要: CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2511.02734v1
- Date: Tue, 04 Nov 2025 16:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.115693
- Title: CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents
- Title(参考訳): CostBench: LLMツール使用エージェントのマルチターン最適計画と動的環境適応の評価
- Authors: Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung,
- Abstract要約: CostBenchは、エージェントの経済的推論と計画能力を評価するために設計されたコスト中心のベンチマークである。
さまざまなカスタマイズ可能なコストで、原子および複合ツールの複数のシーケンスを通じて解決可能なタスクから構成される。
また、ツール障害やコスト変更などの4種類の動的ブロッキングイベントをサポートし、現実世界の予測不能をシミュレートする。
- 参考スコア(独自算出の注目度): 20.07359140801559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluations of Large Language Model (LLM) agents primarily emphasize task completion, often overlooking resource efficiency and adaptability. This neglects a crucial capability: agents' ability to devise and adjust cost-optimal plans in response to changing environments. To bridge this gap, we introduce CostBench, a scalable, cost-centric benchmark designed to evaluate agents' economic reasoning and replanning abilities. Situated in the travel-planning domain, CostBench comprises tasks solvable via multiple sequences of atomic and composite tools with diverse, customizable costs. It also supports four types of dynamic blocking events, such as tool failures and cost changes, to simulate real-world unpredictability and necessitate agents to adapt in real time. Evaluating leading open-sourced and proprietary models on CostBench reveals a substantial gap in cost-aware planning: agents frequently fail to identify cost-optimal solutions in static settings, with even GPT-5 achieving less than 75% exact match rate on the hardest tasks, and performance further dropping by around 40% under dynamic conditions. By diagnosing these weaknesses, CostBench lays the groundwork for developing future agents that are both economically rational and robust.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの現在の評価は、主にタスクの完了を強調しており、しばしばリソース効率と適応性を見落としている。
これは重要な能力を無視している: エージェントは環境の変化に応じてコスト最適化計画を考案し調整する能力である。
このギャップを埋めるために、エージェントの経済的推論と再計画能力を評価するために設計されたスケーラブルでコスト中心のベンチマークであるCostBenchを紹介します。
旅行計画領域に位置するCostBenchは、多種多様なカスタマイズ可能なコストで、原子および複合ツールの複数のシーケンスを介して解決可能なタスクで構成されている。
また、ツールの障害やコスト変更といった4種類の動的ブロッキングイベントをサポートし、現実世界の予測不能をシミュレートし、エージェントをリアルタイムで適応させる必要がある。
エージェントは静的な設定でコスト最適化ソリューションを特定するのに失敗することが多く、GPT-5でさえ最も難しいタスクで75%未満の正確なマッチング率を達成することができ、パフォーマンスは動的条件下では40%ほど低下する。
これらの弱点を診断することで、コストベンチは経済的に合理的かつ堅牢な将来のエージェントを開発するための基礎を築いている。
関連論文リスト
- AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文 参考訳(メタデータ) (2025-06-09T17:14:41Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines [23.925385446070717]
CEBenchは、オンラインの大規模言語モデルをベンチマークするためのオープンソースのツールキットである。
LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
この能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
論文 参考訳(メタデータ) (2024-06-20T21:36:00Z) - Optimal Cost Design for Model Predictive Control [30.86835688868485]
多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-23T00:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。