論文の概要: MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents
- arxiv url: http://arxiv.org/abs/2508.21475v2
- Date: Fri, 26 Sep 2025 13:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 18:47:02.682336
- Title: MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents
- Title(参考訳): MMSearch-Plus:マルチモーダルブラウジングエージェントのベンチマーク処理
- Authors: Xijia Tao, Yihua Teng, Xinxing Su, Xinyu Fu, Jihao Wu, Chaofan Tao, Ziru Liu, Haoli Bai, Rui Liu, Lingpeng Kong,
- Abstract要約: マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
- 参考スコア(独自算出の注目度): 44.63565009665076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal browsing benchmarks often fail to require genuine multimodal reasoning, as many tasks can be solved with text-only heuristics without vision-in-the-loop verification. We introduce MMSearch-Plus, a 311-task benchmark that enforces multimodal understanding by requiring extraction and propagation of fine-grained visual cues through iterative image-text retrieval and cross-validation under retrieval noise. Our curation procedure seeds questions whose answers require extrapolating from spatial cues and temporal traces to out-of-image facts such as events, dates, and venues. Beyond the dataset, we provide a model-agnostic agent framework with standard browsing tools and a set-of-mark (SoM) module, which lets the agent place marks, crop subregions, and launch targeted image/text searches. SoM enables provenance-aware zoom-and-retrieve and improves robustness in multi-step reasoning. We evaluated closed- and open-source MLLMs in this framework. The strongest system achieves an end-to-end accuracy of 36.0%, and integrating SoM produces consistent gains in multiple settings, with improvements up to +3.9 points. From failure analysis, we observe recurring errors in locating relevant webpages and distinguishing between visually similar events. These results underscore the challenges of real-world multimodal search and establish MMSearch-Plus as a rigorous benchmark for advancing agentic MLLMs.
- Abstract(参考訳): 既存のマルチモーダルブラウジングベンチマークは真のマルチモーダル推論を必要としないことが多く、多くのタスクはループでの視覚的検証なしにテキストのみのヒューリスティックで解決できる。
我々は311タスクのベンチマークであるMMSearch-Plusを導入し、検索ノイズ下での反復的な画像テキスト検索とクロスバリデーションにより、きめ細かな視覚的手がかりの抽出と伝播を要求することでマルチモーダル理解を実現する。
キュレーションでは, 空間的手がかりや時間的トレースから, イベント, 日付, 会場などの異常な事実への外挿が必要な質問をシードする。
データセット以外にも、標準的なブラウジングツールを備えたモデル非依存のエージェントフレームワークと、エージェントがマーク、作物のサブリージョンを配置し、ターゲットの画像/テキスト検索を起動するset-of-mark(SoM)モジュールを提供しています。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
このフレームワークでクローズドおよびオープンソースMLLMを評価した。
最強のシステムはエンドツーエンドの精度が36.0%に達し、SoMを統合することで複数の設定で一貫した利得が得られる。
フェール解析から、関連するWebページの配置や、視覚的に類似したイベントの区別において、繰り返し発生するエラーを観察する。
これらの結果は、実世界のマルチモーダル検索の課題を浮き彫りにして、エージェントMLLMを前進させるための厳密なベンチマークとしてMMSearch-Plusを確立した。
関連論文リスト
- MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning [6.327006563699527]
本稿では,大規模言語モデル(LLM)駆動検索エージェントのトレーニング手法であるSearchExpertを紹介する。
我々は、トークン消費を減らすために、効率的な自然言語表現で探索計画を再構築する。
推論集約的な探索能力を向上させるために,探索フィードバックからの強化学習を提案する。
論文 参考訳(メタデータ) (2025-05-24T19:00:36Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。