論文の概要: TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks
- arxiv url: http://arxiv.org/abs/2511.01527v1
- Date: Mon, 03 Nov 2025 12:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.259734
- Title: TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks
- Title(参考訳): TPS-Bench: 複合タスクにおけるAIエージェントのツール計画とスケジューリング能力の評価
- Authors: Hanwen Xu, Xuyao Huang, Yuzhe Liu, Kai Yu, Zhijie Deng,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。
本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。
- 参考スコア(独自算出の注目度): 23.96822236741708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have exhibited strong problem-solving competence across domains like research and coding. Yet, it remains underexplored whether LLM agents can tackle compounding real-world problems that require a diverse set of tools to complete. Given a broad, heterogeneous tool repository, LLM agents must not only select appropriate tools based on task planning analysis but also strategically schedule the execution order to ensure efficiency. This paper introduces TPS-Bench to benchmark the ability of LLM agents in solving such problems that demand Tool Planning and Scheduling. TPS-Bench collects 200 compounding tasks of two difficulty levels, based on a tool repository containing hundreds of model context protocol (MCP) tools. In particular, each task is composed of multiple subtasks, such as web search, map navigation, calendar checking, etc., and each subtask can be completed by a basic tool. Our evaluation emphasizes both task completion rate and efficiency. The empirical studies on popular closed-source and open-source LLMs indicate that most models can perform reasonable tool planning, but differ in scheduling. For example, GLM-4.5 achieves an outperforming task completion rate of 64.72% with extensive sequential tool calls, hence suffering from significantly long execution time. By contrast, GPT-4o prioritizes parallel tool calls but achieves only a 45.08% completion rate. Considering reinforcement learning (RL) can be a viable way to improve the scheduling efficiency without compromising performance, we perform an initial study on Qwen3-1.7B and witness a 14% reduction in execution time alongside a 6% gain in task completion rate based on rarely 100 RL training samples. Our code is available https://github.com/hanwenxu1/mcp-agent.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。
しかし、LLMエージェントが様々なツールセットの完成を必要とする現実世界の複雑な問題に対処できるかどうかはまだ解明されていない。
広範で異質なツールリポジトリを考えると、LLMエージェントはタスク計画分析に基づいて適切なツールを選択するだけでなく、効率を確保するために実行順序を戦略的にスケジュールする必要がある。
本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。
TPS-Benchは、数百のモデルコンテキストプロトコル(MCP)ツールを含むツールリポジトリに基づいて、200の複合タスクを2つの難易度で収集する。
特に、各タスクはWeb検索、マップナビゲーション、カレンダーチェックなどの複数のサブタスクで構成されており、各サブタスクは基本的なツールで完了することができる。
我々の評価はタスク完了率と効率の両方を強調している。
ポピュラーなクローズドソースおよびオープンソースLCMに関する実証研究は、ほとんどのモデルが合理的なツールプランニングを行うことができるが、スケジューリングが異なることを示している。
例えば、GLM-4.5は64.72%のタスク完了率を達成し、大規模なシーケンシャルなツールコールを実現している。
対照的に、GPT-4oは並列ツールコールを優先するが、45.08%の完了率しか達成していない。
強化学習(RL)は、性能を損なうことなくスケジューリング効率を向上させるための有効な方法であり得ることを考慮し、Qwen3-1.7Bの初期研究を行い、希少な100RLトレーニングサンプルに基づいてタスク完了率の6%向上とともに、実行時間を14%削減することを示した。
私たちのコードはhttps://github.com/hanwenxu1/mcp-agent.comで利用可能です。
関連論文リスト
- GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Tool-Planner: Task Planning with Clusters across Multiple Tools [30.25234781338571]
ツールキットに基づくタスク処理フレームワークであるTool-Plannerを提案する。
Tool-Plannerは同じ関数を持つAPI関数をツールキットにグループ化する。
ツールエラーが発生した場合、言語モデルはツールキットに基づいてツールを再選択し、調整することができる。
論文 参考訳(メタデータ) (2024-06-06T07:30:14Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - ProTIP: Progressive Tool Retrieval Improves Planning [14.386337505825228]
プログレッシブツール検索を計画改善(ProTIP)フレームワークに導入する。
ProTIPは、サブタスクラベルの明示的な要求なしに暗黙的にTDを実行すると同時に、サブタスク-ツール原子性も同時に維持する。
ToolBenchデータセットでは、ProTIPがChatGPTタスク分解ベースのアプローチよりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-12-16T05:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。