論文の概要: The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
- arxiv url: http://arxiv.org/abs/2510.25726v1
- Date: Wed, 29 Oct 2025 17:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.88383
- Title: The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
- Title(参考訳): ツール宣言:多変量,現実性,長期タスク実行のための言語エージェントのベンチマーク
- Authors: Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He,
- Abstract要約: Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
- 参考スコア(独自算出の注目度): 86.4588675093384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world language agents must handle complex, multi-step workflows across diverse Apps. For instance, an agent may manage emails by coordinating with calendars and file systems, or monitor a production database to detect anomalies and generate reports following an operating manual. However, existing language agent benchmarks often focus on narrow domains or simplified tasks that lack the diversity, realism, and long-horizon complexity required to evaluate agents' real-world performance. To address this gap, we introduce the Tool Decathlon (dubbed as Toolathlon), a benchmark for language agents offering diverse Apps and tools, realistic environment setup, and reliable execution-based evaluation. Toolathlon spans 32 software applications and 604 tools, ranging from everyday platforms such as Google Calendar and Notion to professional ones like WooCommerce, Kubernetes, and BigQuery. Most of the tools are based on a high-quality set of Model Context Protocol (MCP) servers that we may have revised or implemented ourselves. Unlike prior works, which primarily ensure functional realism but offer limited environment state diversity, we provide realistic initial environment states from real software, such as Canvas courses with dozens of students or real financial spreadsheets. This benchmark includes 108 manually sourced or crafted tasks in total, requiring interacting with multiple Apps over around 20 turns on average to complete. Each task is strictly verifiable through dedicated evaluation scripts. Comprehensive evaluation of SOTA models highlights their significant shortcomings: the best-performing model, Claude-4.5-Sonnet, achieves only a 38.6% success rate with 20.2 tool calling turns on average, while the top open-weights model DeepSeek-V3.2-Exp reaches 20.1%. We expect Toolathlon to drive the development of more capable language agents for real-world, long-horizon task execution.
- Abstract(参考訳): 現実世界の言語エージェントは、さまざまなアプリにわたる複雑なマルチステップワークフローを処理しなければなりません。
例えば、エージェントはカレンダーやファイルシステムと協調してメールを管理したり、プロダクションデータベースを監視して異常を検出し、操作マニュアルに従ってレポートを生成する。
しかし、既存の言語エージェントベンチマークは、エージェントの現実世界のパフォーマンスを評価するのに必要な多様性、リアリズム、長期の複雑さを欠いた狭いドメインや単純化されたタスクに焦点を当てることが多い。
このギャップに対処するため、さまざまなアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのためのベンチマークであるTool Decathlon(Toolathlonと呼ばれる)を紹介します。
Toolathlonは、Google CalendarやNotionといった日常的なプラットフォームから、WooCommerce、Kubernetes、BigQueryなどのプロフェッショナルなプラットフォームまで、32のソフトウェアアプリケーションと604のツールにまたがる。
ほとんどのツールは高品質なモデルコンテキストプロトコル(MCP)サーバをベースにしています。
機能的リアリズムを主に保証するが、限られた環境状態の多様性を提供する以前の作品とは異なり、多くの学生によるCanvasコースや実際の財務スプレッドシートなど、実際のソフトウェアから現実的な初期環境状態を提供する。
このベンチマークには、合計で108のソースまたはクラフトタスクが含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
各タスクは専用の評価スクリプトを通じて厳密に検証される。
最高のパフォーマンスモデルであるClaude-4.5-Sonnetは、平均で20.2のツール呼び出しで38.6%の成功率しか達成せず、上位のオープンウェイトモデルであるDeepSeek-V3.2-Expは20.1%に達した。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
関連論文リスト
- OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - Programming with Pixels: Can Computer-Use Agents do Software Engineering? [24.011063667060792]
$textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。
PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
論文 参考訳(メタデータ) (2025-02-24T18:41:33Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。