論文の概要: ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
- arxiv url: http://arxiv.org/abs/2603.29902v1
- Date: Tue, 31 Mar 2026 15:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.753557
- Title: ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
- Title(参考訳): ATP-Bench:MLLMインターリーブ生成のためのエージェントツール計画に向けて
- Authors: Yinuo Liu, Zi Qian, Heng Zhou, Jiahao Zhang, Yajie Zhang, Zhihang Li, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: インターリーブされたテキスト・画像生成は、複雑な情報を伝えるためのより直感的な方法を提供する。
現在のパラダイムは、イメージ生成または検索拡張のいずれかに依存しており、クリエイティビティと事実を統一することができない。
この分野での次のマイルストーンはエージェントツールプランニングであり、モデルがいつ、どこで、どのツールを起動して、視覚的にクリティカルなクエリに対してインターリーブされた応答を生成するかを自律的に決定する中心的なコントローラとして機能する。
- 参考スコア(独自算出の注目度): 14.85015534787527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interleaved text-and-image generation represents a significant frontier for Multimodal Large Language Models (MLLMs), offering a more intuitive way to convey complex information. Current paradigms rely on either image generation or retrieval augmentation, yet they typically treat the two as mutually exclusive paths, failing to unify factuality with creativity. We argue that the next milestone in this field is Agentic Tool Planning, where the model serves as a central controller that autonomously determines when, where, and which tools to invoke to produce interleaved responses for visual-critical queries. To systematically evaluate this paradigm, we introduce ATP-Bench, a novel benchmark comprising 7,702 QA pairs (including 1,592 VQA pairs) across eight categories and 25 visual-critical intents, featuring human-verified queries and ground truths. Furthermore, to evaluate agentic planning independent of end-to-end execution and changing tool backends, we propose a Multi-Agent MLLM-as-a-Judge (MAM) system. MAM evaluates tool-call precision, identifies missed opportunities for tool use, and assesses overall response quality without requiring ground-truth references. Our extensive experiments on 10 state-of-the-art MLLMs reveal that models struggle with coherent interleaved planning and exhibit significant variations in tool-use behavior, highlighting substantial room for improvement and providing actionable guidance for advancing interleaved generation. Dataset and code are available at https://github.com/Qwen-Applications/ATP-Bench.
- Abstract(参考訳): インターリーブされたテキスト・画像生成は、複雑な情報を伝えるためのより直感的な方法を提供するマルチモーダル大言語モデル(MLLM)にとって重要なフロンティアである。
現在のパラダイムは、画像生成または検索の強化のいずれかに依存しているが、これら2つを互いに排他的な経路として扱い、創造性と事実性を統一することができない。
この分野での次のマイルストーンはエージェントツールプランニングであり、モデルがいつ、どこで、どのツールを起動して、視覚的にクリティカルなクエリに対してインターリーブされた応答を生成するかを自律的に決定する中心的なコントローラとして機能する。
このパラダイムを体系的に評価するために、ATP-Benchは、8つのカテゴリにまたがる7,702のQAペア(うち1,592のVQAペア)と25の視覚的クリティカルな意図からなる新しいベンチマークである。
さらに,エンドツーエンドの実行やツールバックエンドの変更に依存しないエージェント計画を評価するために,マルチエージェントMLLM-as-a-Judge(MAM)システムを提案する。
MAMは、ツールコール精度を評価し、ツール使用の機会の欠如を特定し、基調参照を必要とせずに、全体的な応答品質を評価する。
10種類の最先端MLLMに関する広範な実験により、モデルがコヒーレントなインターリーブドプランニングに苦戦し、ツール使用行動に顕著なバリエーションを示し、改善の余地を強調し、インターリーブドジェネレーションを進めるための実用的なガイダンスを提供することが明らかになった。
データセットとコードはhttps://github.com/Qwen-Applications/ATP-Bench.comで入手できる。
関連論文リスト
- User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale [5.641245411366927]
タスク指向型マルチターン対話を大規模に自動生成するフレームワークを開発した。
我々の生成パイプラインは、任意の状態から生成を開始することができる汎用的なプラグイン・アンド・プレイモジュールとして動作します。
実世界の人間とエージェントの相互作用の多面的要求を反映した高密度データセットを提供する。
論文 参考訳(メタデータ) (2026-01-13T05:14:09Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。