Fugu-MT 論文翻訳(概要): TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks

論文の概要: TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks

arxiv url: http://arxiv.org/abs/2511.01527v1
Date: Mon, 03 Nov 2025 12:45:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:27.259734
Title: TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks
Title（参考訳）: TPS-Bench: 複合タスクにおけるAIエージェントのツール計画とスケジューリング能力の評価
Authors: Hanwen Xu, Xuyao Huang, Yuzhe Liu, Kai Yu, Zhijie Deng,
Abstract要約: 大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。
参考スコア（独自算出の注目度）: 23.96822236741708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) agents have exhibited strong problem-solving competence across domains like research and coding. Yet, it remains underexplored whether LLM agents can tackle compounding real-world problems that require a diverse set of tools to complete. Given a broad, heterogeneous tool repository, LLM agents must not only select appropriate tools based on task planning analysis but also strategically schedule the execution order to ensure efficiency. This paper introduces TPS-Bench to benchmark the ability of LLM agents in solving such problems that demand Tool Planning and Scheduling. TPS-Bench collects 200 compounding tasks of two difficulty levels, based on a tool repository containing hundreds of model context protocol (MCP) tools. In particular, each task is composed of multiple subtasks, such as web search, map navigation, calendar checking, etc., and each subtask can be completed by a basic tool. Our evaluation emphasizes both task completion rate and efficiency. The empirical studies on popular closed-source and open-source LLMs indicate that most models can perform reasonable tool planning, but differ in scheduling. For example, GLM-4.5 achieves an outperforming task completion rate of 64.72% with extensive sequential tool calls, hence suffering from significantly long execution time. By contrast, GPT-4o prioritizes parallel tool calls but achieves only a 45.08% completion rate. Considering reinforcement learning (RL) can be a viable way to improve the scheduling efficiency without compromising performance, we perform an initial study on Qwen3-1.7B and witness a 14% reduction in execution time alongside a 6% gain in task completion rate based on rarely 100 RL training samples. Our code is available https://github.com/hanwenxu1/mcp-agent.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、研究やコーディングといった分野にまたがる強力な問題解決能力を示している。しかし、LLMエージェントが様々なツールセットの完成を必要とする現実世界の複雑な問題に対処できるかどうかはまだ解明されていない。広範で異質なツールリポジトリを考えると、LLMエージェントはタスク計画分析に基づいて適切なツールを選択するだけでなく、効率を確保するために実行順序を戦略的にスケジュールする必要がある。本稿では, TPS-Bench を用いて, ツールプランニングとスケジューリングを要求される問題に対する LLM エージェントの能力のベンチマークを行う。 TPS-Benchは、数百のモデルコンテキストプロトコル(MCP)ツールを含むツールリポジトリに基づいて、200の複合タスクを2つの難易度で収集する。特に、各タスクはWeb検索、マップナビゲーション、カレンダーチェックなどの複数のサブタスクで構成されており、各サブタスクは基本的なツールで完了することができる。我々の評価はタスク完了率と効率の両方を強調している。ポピュラーなクローズドソースおよびオープンソースLCMに関する実証研究は、ほとんどのモデルが合理的なツールプランニングを行うことができるが、スケジューリングが異なることを示している。例えば、GLM-4.5は64.72%のタスク完了率を達成し、大規模なシーケンシャルなツールコールを実現している。対照的に、GPT-4oは並列ツールコールを優先するが、45.08%の完了率しか達成していない。強化学習(RL)は、性能を損なうことなくスケジューリング効率を向上させるための有効な方法であり得ることを考慮し、Qwen3-1.7Bの初期研究を行い、希少な100RLトレーニングサンプルに基づいてタスク完了率の6%向上とともに、実行時間を14%削減することを示した。私たちのコードはhttps://github.com/hanwenxu1/mcp-agent.comで利用可能です。

論文の概要: TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks

関連論文リスト