論文の概要: AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
- arxiv url: http://arxiv.org/abs/2602.23166v1
- Date: Thu, 26 Feb 2026 16:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.773102
- Title: AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios
- Title(参考訳): AgentVista:超現実的な視覚シナリオにおけるマルチモーダルエージェントの評価
- Authors: Zhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He,
- Abstract要約: 実世界のマルチモーダルエージェントは、視覚的証拠に根ざしたマルチステップを解決する。
既存のベンチマークは、主にシングルターンの視覚的推論または特定のツールスキルを評価する。
本稿では,汎用マルチモーダルエージェントのベンチマークであるAgentVistaを紹介する。
- 参考スコア(独自算出の注目度): 32.58358574768901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world multimodal agents solve multi-step workflows grounded in visual evidence. For example, an agent can troubleshoot a device by linking a wiring photo to a schematic and validating the fix with online documentation, or plan a trip by interpreting a transit map and checking schedules under routing constraints. However, existing multimodal benchmarks mainly evaluate single-turn visual reasoning or specific tool skills, and they do not fully capture the realism, visual subtlety, and long-horizon tool use that practical agents require. We introduce AgentVista, a benchmark for generalist multimodal agents that spans 25 sub-domains across 7 categories, pairing realistic and detail-rich visual scenarios with natural hybrid tool use. Tasks require long-horizon tool interactions across modalities, including web search, image search, page navigation, and code-based operations for both image processing and general programming. Comprehensive evaluation of state-of-the-art models exposes significant gaps in their ability to carry out long-horizon multimodal tool use. Even the best model in our evaluation, Gemini-3-Pro with tools, achieves only 27.3% overall accuracy, and hard instances can require more than 25 tool-calling turns. We expect AgentVista to accelerate the development of more capable and reliable multimodal agents for realistic and ultra-challenging problem solving.
- Abstract(参考訳): 実世界のマルチモーダルエージェントは、視覚的エビデンスに基づく多段階ワークフローを解決する。
例えば、エージェントは、配線写真をスキーマにリンクし、オンラインドキュメントで修正を検証することでデバイスをトラブルシュートしたり、トランジットマップを解釈し、ルーティング制約の下でスケジュールをチェックすることで旅行を計画することができる。
しかし、既存のマルチモーダルベンチマークは、主に単一ターンの視覚的推論や特定のツールスキルを評価しており、実践的なエージェントが必要とする現実性、視覚的微妙さ、長期ツールの使用を完全には捉えていない。
AgentVistaは7つのカテゴリにまたがる25のサブドメインにまたがる汎用マルチモーダルエージェントのベンチマークである。
タスクは、Web検索、画像検索、ページナビゲーション、画像処理と汎用プログラミングの両方のためのコードベースの操作を含む、モジュール間の長い水平ツールインタラクションを必要とする。
最先端モデルの包括的評価は、長期マルチモーダルツールの使用を行う能力において、大きなギャップを露呈する。
評価において最高のモデルであるGemini-3-Proでも、全体的な精度は27.3%に過ぎず、ハードインスタンスでは25以上のツール呼び出しのターンが必要になる。
我々はAgentVistaがより有能で信頼性の高いマルチモーダルエージェントの開発を加速することを期待している。
関連論文リスト
- InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search [48.79494320593913]
O3-Benchは、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークである。
O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。
視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)からなるマルチエージェントフレームワークであるInSight-o3を提案する。
論文 参考訳(メタデータ) (2025-12-21T14:23:07Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - DeepEyesV2: Toward Agentic Multimodal Model [3.775371242454792]
エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
論文 参考訳(メタデータ) (2025-11-07T14:31:20Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。