論文の概要: VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents
- arxiv url: http://arxiv.org/abs/2603.16289v1
- Date: Tue, 17 Mar 2026 09:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.195216
- Title: VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents
- Title(参考訳): VisBrowse-Bench: マルチモーダルブラウジングエージェントのためのビジュアルネイティブ検索のベンチマーク
- Authors: Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan,
- Abstract要約: 視覚ネイティブ検索のための新しいベンチマークVisBrowse-Benchを紹介した。
複数のドメインをカバーする169のVQAインスタンスを含んでいる。
探索過程におけるモデルの視覚的推論能力を評価する。
- 参考スコア(独自算出の注目度): 27.574370658412864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Multimodal Large Language Models (MLLMs) has enabled browsing agents to acquire and reason over multimodal information in the real world. But existing benchmarks suffer from two limitations: insufficient evaluation of visual reasoning ability and the neglect of native visual information of web pages in the reasoning chains. To address these challenges, we introduce a new benchmark for visual-native search, VisBrowse-Bench. It contains 169 VQA instances covering multiple domains and evaluates the models' visual reasoning capabilities during the search process through multimodal evidence cross-validation via text-image retrieval and joint reasoning. These data were constructed by human experts using a multi-stage pipeline and underwent rigorous manual verification. We additionally propose an agent workflow that can effectively drive the browsing agent to actively collect and reason over visual information during the search process. We comprehensively evaluated both open-source and closed-source models in this workflow. Experimental results show that even the best-performing model, Claude-4.6-Opus only achieves an accuracy of 47.6%, while the proprietary Deep Research model, o3-deep-research only achieves an accuracy of 41.1%. The code and data can be accessed at: https://github.com/ZhengboZhang/VisBrowse-Bench
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩により、ブラウジングエージェントは現実世界のマルチモーダル情報を取得し、推論できるようになった。
しかし、既存のベンチマークには、視覚的推論能力の評価が不十分なことと、推論チェーンにおけるWebページのネイティブ視覚情報の無視という2つの制限がある。
これらの課題に対処するため、視覚ネイティブ検索のための新しいベンチマークVisBrowse-Benchを紹介した。
これには、複数のドメインをカバーする169のVQAインスタンスが含まれており、テキストイメージ検索と共同推論によるマルチモーダルエビデンスを通じて、検索プロセス中のモデルの視覚的推論能力を評価する。
これらのデータは、多段パイプラインを使用して人間の専門家によって構築され、厳密な手作業による検証が行われた。
また,探索中の視覚情報の収集と推論を効果的に行うことができるエージェントワークフローを提案する。
このワークフローにおいて、オープンソースモデルとクローズドソースモデルの両方を包括的に評価した。
実験の結果、最高の性能モデルであるClaude-4.6-Opusでさえ47.6%の精度しか達成せず、プロプライエタリなDeep Researchモデルであるo3-deep-researchは41.1%の精度しか達成していないことがわかった。
コードとデータは、https://github.com/ZhengboZhang/VisBrowse-Benchでアクセスできます。
関連論文リスト
- MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search [48.79494320593913]
O3-Benchは、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークである。
O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。
視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)からなるマルチエージェントフレームワークであるInSight-o3を提案する。
論文 参考訳(メタデータ) (2025-12-21T14:23:07Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval
Models [5.725477071353354]
クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。
DIMEは、マルチモーダルデータセット、訓練されたモデル、およびデータプリプロセッサを処理するモダリティに依存しないツールである。
論文 参考訳(メタデータ) (2020-10-19T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。