論文の概要: TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2605.16909v1
- Date: Sat, 16 May 2026 09:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.28788
- Title: TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents
- Title(参考訳): TOBench: 実世界のツール使用エージェントのためのタスク指向のOmni-Modalベンチマーク
- Authors: Zhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si,
- Abstract要約: MM-ToolBenchはタスク指向のOmni-modalツール用ベンチマークと評価ハーネスである。
MM-ToolBenchの中心設計は閉ループマルチモーダル検証である。
15の現代のエージェントモデルの実験では、MM-ToolBenchは非常に難しいままである。
- 参考スコア(独自算出の注目度): 13.027789222320807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using agents are increasingly expected to operate across realistic professional workflows, where they must interpret multimodal inputs, coordinate external tools, inspect intermediate artifacts, and revise their actions before producing a final result. Existing benchmarks, however, often evaluate tool use, computer use, and multimodal reasoning in isolation, leaving a gap between benchmark settings and end-to-end omni-modal tool use in the real world. To address this gap, we introduce MM-ToolBench, a benchmark and evaluation harness for task-oriented omni-modal tool use. MM-ToolBench contains 100 executable tasks from two macro task families, Customer Service and Intelligent Creation, covering 20 subcategory slices and supported by 27 MCP servers with 324 tools. The central design of MM-ToolBench is closed-loop multimodal verification: agents must execute tools, inspect rendered or transformed artifacts, and self-correct when outputs fail task-specific requirements. To make such evaluation scalable and verifiable, MM-ToolBench couples MCP-based execution with task-specific grounded evaluators and a semi-automated construction pipeline for scenario discovery, task instantiation, evaluator synthesis, and human audit. Experiments on 15 contemporary agentic models show that MM-ToolBench remains highly challenging: Claude Opus 4.6, commonly regarded as one of the strongest coding-agent models, achieves only 32.0% task success, far below the 94.0% human benchmark. We envision MM-ToolBench as a practical foundation for evaluating and advancing next-generation omni-modal tool-using agents through closed-loop multimodal verification.
- Abstract(参考訳): マルチモーダルな入力を解釈し、外部ツールをコーディネートし、中間的な成果物を検査し、最終的な結果を出す前に行動を修正する必要がある。
しかし、既存のベンチマークはしばしばツールの使用、コンピュータの使用、マルチモーダル推論を独立して評価し、ベンチマーク設定とエンドツーエンドのオムニモーダルツールの使用のギャップを現実世界に残している。
このギャップに対処するために,タスク指向のOmni-modalツール用ベンチマークと評価ハーネスであるMM-ToolBenchを紹介する。
MM-ToolBenchには、Customer ServiceとIntelligent Creationという2つのマクロタスクファミリから100の実行可能なタスクが含まれている。
MM-ToolBenchの中心的な設計はクローズドループのマルチモーダル検証である:エージェントはツールを実行し、レンダリングまたは変換されたアーティファクトを検査し、アウトプットがタスク固有の要求をフェールしたときは自己修正しなければならない。
このような評価をスケーラブルで検証可能なものにするため、MM-ToolBenchは、MPPベースの実行とタスク固有の基底評価器と、シナリオ発見、タスクインスタンス化、評価器合成、人間監査のための半自動構築パイプラインを結合する。
クロード・オプス4.6(Claude Opus 4.6)は最も強力なコーディングエージェントモデルの一つと見なされるが、わずか32.0%のタスク成功しか達成していない。
我々はMM-ToolBenchをクローズドループマルチモーダル検証による次世代オムニモーダル・ツール・ユース・エージェントの評価・発展のための実践的基盤として想定する。
関連論文リスト
- ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution [49.30293260493709]
大きな言語モデル(LLM)は、外部ツールを利用することで問題解決能力を高める。
静的埋め込み検索やパラメータ記憶に頼っている既存の手法は、ユーザの意図をツールのセマンティクスに合わせるのに苦労している。
提案するツールOmniは,プロアクティブ検索とグラウンドド実行により,オープンワールドツール利用のためのLLMを実現する統合エージェントフレームワークである。
論文 参考訳(メタデータ) (2026-04-15T12:26:10Z) - Open, Reliable, and Collective: A Community-Driven Framework for Tool-Using AI Agents [22.64138018985385]
我々は、失敗は、ツール使用精度(エージェントがどのようにツールを呼び出すか)と固有のツール精度(ツール自身の正確性)の両方から生じると論じている。
ツールスキーマを標準化するコミュニティ主導のツールボックスであるOpenToolsを紹介します。
OpenToolsには、コアフレームワーク、初期ツールセット、評価パイプライン、コントリビューションプロトコルが含まれている。
論文 参考訳(メタデータ) (2026-03-31T18:42:36Z) - VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文 参考訳(メタデータ) (2025-08-22T09:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。