論文の概要: GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows
- arxiv url: http://arxiv.org/abs/2604.15715v1
- Date: Fri, 17 Apr 2026 05:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.75218
- Title: GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows
- Title(参考訳): GTA-2:Atomic Tool-Useからオープンソースワークフローへの一般的なツールエージェントのベンチマーク
- Authors: Jize Wang, Xuanxuan Liu, Yining Li, Songyang Zhang, Yijun Wang, Zifei Shan, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao,
- Abstract要約: GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
- 参考スコア(独自算出の注目度): 90.35728421223673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.
- Abstract(参考訳): 汎用エージェントの開発には、単純な命令の実行から、複雑な現実世界の生産性ワークフローの完了への移行が必要である。
しかし、現在のツール使用ベンチマークは、AI生成クエリ、ダミーツール、システムレベルの調整の制限など、現実世界の要件と不一致のままである。
そこで我々は,汎用ツールエージェント(GTA)の階層的ベンチマークであるGTA-2を提案する。
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
i) 前回のGTAベンチマークから継承したGTA-Atomicは,短時間のクローズドエンドツール使用精度を評価する。
(ii) GTA-Workflowは、現実的なエンドツーエンド補完のための長期的かつオープンなタスクを導入します。
本研究では,目標を検証可能なサブゴールに分解し,モデル機能とエージェント実行フレームワーク(実行ハーネス)の統一的な評価を可能にする再帰的チェックポイントに基づく評価機構を提案する。
実験では、フロンティアモデルがすでにアトミックなタスク(50%以下)で苦労しているが、ワークフローではほとんど失敗し、トップモデルは14.39%しか成功していない。
ManusやOpenClawといった先進的なフレームワークはワークフローの補完を大幅に強化し、基礎となるモデルキャパシティを超えた実行ハーネス設計の重要性を強調している。
これらの知見は、信頼性の高いパーソナルアシスタントとプロのアシスタントを開発するためのガイダンスを提供する。
データセットとコードはhttps://github.com/open-compass/GTA.comから入手できる。
関連論文リスト
- PerfGuard: A Performance-Aware Agent for Visual Content Generation [53.591105729011595]
PerfGuardは、ビジュアルコンテンツ生成のためのパフォーマンス対応のエージェントフレームワークである。
ツールのパフォーマンス境界をタスク計画とスケジューリングに統合する。
ツール選択の正確性、実行の信頼性、ユーザの意図との整合性にメリットがあります。
論文 参考訳(メタデータ) (2026-01-30T05:12:19Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。