論文の概要: BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
- arxiv url: http://arxiv.org/abs/2602.12876v1
- Date: Fri, 13 Feb 2026 12:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.946465
- Title: BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
- Title(参考訳): BrowseComp-$V^3$:マルチモーダルブラウジングエージェントのための視覚的,垂直的,検証可能なベンチマーク
- Authors: Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、オープンワールド環境でマルチモーダルWebブラウジングとディープ検索を行う自律エージェントへと進化している。
我々はBrowseComp-$V3$という,300の慎重にキュレートされた,さまざまなドメインにまたがる挑戦的な質問からなる,新しいベンチマークを紹介した。
この結果から,現在のモデル機能と実環境における堅牢なマルチモーダルディープサーチとの根本的なギャップが浮き彫りになった。
- 参考スコア(独自算出の注目度): 30.849897676091327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs), equipped with increasingly advanced planning and tool-use capabilities, are evolving into autonomous agents capable of performing multimodal web browsing and deep search in open-world environments. However, existing benchmarks for multimodal browsing remain limited in task complexity, evidence accessibility, and evaluation granularity, hindering comprehensive and reproducible assessments of deep search capabilities. To address these limitations, we introduce BrowseComp-$V^3$, a novel benchmark consisting of 300 carefully curated and challenging questions spanning diverse domains. The benchmark emphasizes deep, multi-level, and cross-modal multi-hop reasoning, where critical evidence is interleaved across textual and visual modalities within and across web pages. All supporting evidence is strictly required to be publicly searchable, ensuring fairness and reproducibility. Beyond final-answer accuracy, we incorporate an expert-validated, subgoal-driven process evaluation mechanism that enables fine-grained analysis of intermediate reasoning behaviors and systematic characterization of capability boundaries. In addition, we propose OmniSeeker, a unified multimodal browsing agent framework integrating diverse web search and visual perception tools. Comprehensive experiments demonstrate that even state-of-the-art models achieve only 36% accuracy on our benchmark, revealing critical bottlenecks in multimodal information integration and fine-grained perception. Our results highlight a fundamental gap between current model capabilities and robust multimodal deep search in real-world settings.
- Abstract(参考訳): MLLM(Multimodal large language model)は、より高度な計画とツール使用能力を備えた、マルチモーダルWebブラウジングとオープンワールド環境でのディープ検索が可能な自律エージェントへと進化している。
しかし、既存のマルチモーダルブラウジングのベンチマークは、タスクの複雑さ、エビデンスアクセシビリティ、評価の粒度に限られており、ディープ検索能力の包括的かつ再現可能な評価を妨げる。
これらの制限に対処するために、BrowseComp-$V^3$という、300の慎重にキュレートされた、さまざまなドメインにまたがる挑戦的な問題からなる新しいベンチマークを紹介します。
このベンチマークは、深層、多層、多面的なマルチホップ推論を強調しており、Webページ内およびWebページ間のテキストおよび視覚的モダリティ間で重要な証拠がインターリーブされている。
支持する証拠はすべて、公正さと再現性を確保するために、公然と調査されることが要求される。
最終回答の精度以外にも、中間推論動作のきめ細かい解析と機能境界の体系的評価を可能にするエキスパート検証されたサブゴール駆動プロセス評価機構が組み込まれている。
さらに,多様なWeb検索と視覚認識ツールを統合したマルチモーダル・ブラウジング・エージェント・フレームワークであるOmniSeekerを提案する。
総合的な実験では、最先端モデルでさえベンチマークでわずか36%の精度しか達成せず、マルチモーダル情報の統合と微妙な知覚において重大なボトルネックが明らかになっている。
この結果から,現在のモデル機能と実環境における堅牢なマルチモーダルディープサーチとの根本的なギャップが浮き彫りになった。
関連論文リスト
- Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Multimodal Alignment and Fusion: A Survey [11.3029945633295]
このサーベイは、機械学習分野におけるマルチモーダルアライメントと融合の進歩に関する包括的概要を提供する。
我々は、両構造の観点から、アライメントと融合の鍵となるアプローチを体系的に分類し、分析する。
この調査は、クロスモーダルなミスアライメント、計算ボトルネック、データ品質の問題、モダリティギャップといった重要な課題を強調します。
論文 参考訳(メタデータ) (2024-11-26T02:10:27Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。