論文の概要: Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks
- arxiv url: http://arxiv.org/abs/2505.24876v1
- Date: Fri, 30 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.13475
- Title: Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks
- Title(参考訳): エージェントX:視覚中心のエージェントタスクにおけるディープマルチモーダル推論の評価
- Authors: Tajamul Ashraf, Amal Saqib, Hanan Ghani, Muhra AlMahri, Yuhao Li, Noor Ahsan, Umair Nawaz, Jean Lahoud, Hisham Cholakkal, Mubarak Shah, Philip Torr, Fahad Shahbaz Khan, Rao Muhammad Anwer, Salman Khan,
- Abstract要約: 本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 94.19506319646376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that demand sequential, multimodal understanding. However, existing benchmarks typically evaluate agents with fully synthetic, single-turn queries, limited visual modalities, and lack a framework to assess reasoning quality over multiple steps as required in real-world settings. To address this, we introduce Agent-X, a large-scale benchmark for evaluating vision-centric agents multi-step and deep reasoning capabilities in real-world, multimodal settings. Agent- X features 828 agentic tasks with authentic visual contexts, including images, multi-image comparisons, videos, and instructional text. These tasks span six major agentic environments: general visual reasoning, web browsing, security and surveillance, autonomous driving, sports, and math reasoning. Our benchmark requires agents to integrate tool use with explicit, stepwise decision-making in these diverse settings. In addition, we propose a fine-grained, step-level evaluation framework that assesses the correctness and logical coherence of each reasoning step and the effectiveness of tool usage throughout the task. Our results reveal that even the best-performing models, including GPT, Gemini, and Qwen families, struggle to solve multi-step vision tasks, achieving less than 50% full-chain success. These findings highlight key bottlenecks in current LMM reasoning and tool-use capabilities and identify future research directions in vision-centric agentic reasoning models. Our data and code are publicly available at https://github.com/mbzuai-oryx/Agent-X
- Abstract(参考訳): 深い推論は複雑なタスク、特にシーケンシャルでマルチモーダルな理解を必要とする視覚中心のシナリオの解決に不可欠である。
しかし、既存のベンチマークは一般的に、完全に合成されたシングルターンクエリ、限られた視覚的モダリティを持つエージェントを評価し、現実世界の設定に必要な複数のステップで推論品質を評価するためのフレームワークが欠如している。
そこで我々は,現実のマルチモーダル設定において,視覚中心エージェントの多段階・深部推論能力を評価するための大規模ベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、画像、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
これらのタスクは、一般的な視覚的推論、Webブラウジング、セキュリティと監視、自律運転、スポーツ、数学推論の6つの主要なエージェント環境にまたがる。
当社のベンチマークでは,これらのさまざまな設定において,ツールの使用を明確かつ段階的な意思決定と統合する必要があります。
さらに,各推論ステップの正確性と論理的コヒーレンスを評価し,タスク全体のツール使用の有効性を評価するための,ステップレベルのきめ細かな評価フレームワークを提案する。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、マルチステップビジョンタスクの解決に苦慮し、フルチェーンの成功率は50%以下であることが判明した。
これらの知見は、現在のLMM推論とツール使用能力における重要なボトルネックを強調し、視覚中心のエージェント推論モデルにおける将来の研究方向を特定する。
私たちのデータとコードはhttps://github.com/mbzuai-oryx/Agent-Xで公開されています。
関連論文リスト
- MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning [3.651416979200174]
MMCTAgentは、複雑な視覚的推論タスクにおける現在のMLLM固有の制限に対処するために設計された、新しい批判的思考エージェントフレームワークである。
人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。
論文 参考訳(メタデータ) (2024-05-28T16:55:41Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。