論文の概要: MMSearch-Plus: A Simple Yet Challenging Benchmark for Multimodal Browsing Agents
- arxiv url: http://arxiv.org/abs/2508.21475v1
- Date: Fri, 29 Aug 2025 09:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.000883
- Title: MMSearch-Plus: A Simple Yet Challenging Benchmark for Multimodal Browsing Agents
- Title(参考訳): MMSearch-Plus:マルチモーダルブラウジングエージェントのベンチマーク
- Authors: Xijia Tao, Yihua Teng, Xinxing Su, Xinyu Fu, Jihao Wu, Chaofan Tao, Ziru Liu, Haoli Bai, Rui Liu, Lingpeng Kong,
- Abstract要約: マルチモーダル理解を強く要求する311タスクのベンチマークであるMMSearch-Plusを紹介する。
各項目は、抽出しなければならない複数の弱い局所的な視覚信号を含むように構成される。
我々は、ブラウジングツールを備えたモデルに依存しないエージェントフレームワークを提供し、クローズドでオープンなマルチモーダル言語モデルの評価を行う。
- 参考スコア(独自算出の注目度): 44.63565009665076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal language models (MLLMs) are increasingly deployed as web agents, yet many multimodal browsing benchmarks can be solved by shallow, fixed workflows that lean on high-recall image search and nearby text-masking the genuinely multimodal challenges of fine-grained visual reasoning, provenance verification, and long-horizon tool use. We introduce MMSearch-Plus, a benchmark of 311 tasks that highly demand multimodal understanding while preserving the difficulty profile of strong text-only browsing suites. Each item is constructed to contain multiple weak, localized visual signals that must be extracted, propagated through iterative text-image search, and cross-validated under retrieval noise before answering. Our curation procedure, Spatial-Temporal Extrapolation, seeds questions whose answers require extrapolating from spatial cues (micro-text, part-level appearance, layouts, signage) and temporal traces (broadcast overlays, seasonal context) to out-of-image facts such as events, dates, and venues. We provide a model-agnostic agent framework with browsing tools and evaluate a range of closed and open MLLMs. The strongest agent (o3) attains 15.1% without search and 36.0% accuracy with rollout under our framework, while a strong open-source model (Qwen-2.5-VL-72B-Instruct) achieves 0.0% without search and 6.9% after 20 rounds of search. Beyond answer accuracy, we assess bounding-box production and cropped-image search, and conduct an error analysis that surfaces failures in source verification, part-based reasoning, and long-horizon planning.
- Abstract(参考訳): 大規模なマルチモーダル言語モデル(MLLM)は、Webエージェントとしてますます多くデプロイされているが、多くのマルチモーダルブラウジングベンチマークは、ハイリコール画像検索と近隣のテキストマスキングに依存する浅い固定されたワークフローによって解決される。
MMSearch-Plusは311のタスクのベンチマークで、強力なテキストのみのブラウジングスイートの難易度を保ちながら、マルチモーダルな理解を強く要求する。
各項目は、抽出され、反復的なテキストイメージ検索によって伝播され、応答前に検索ノイズの下でクロスバリデーションされる複数の弱い局所的な視覚信号を含むように構成されている。
キュレーション手順,空間時間外挿,答えが空間的手がかり(マイクロテキスト,部分レベルの外観,レイアウト,サイン)と時間的トレース(放送オーバレイ,季節的文脈)からイベント,日付,会場などの外来事実への外挿を必要とする種子質問について検討した。
ブラウジングツールを用いたモデルに依存しないエージェント・フレームワークを提案し,オープンかつクローズドなMLLMの評価を行う。
最強のエージェント(o3)は検索なしで15.1%、フレームワーク上でのロールアウトで36.0%、強力なオープンソースモデル(Qwen-2.5-VL-72B-Instruct)は検索なしで0.0%、20ラウンドで6.9%に達する。
解答精度の他に、バウンディングボックスの生成とトリミングイメージ検索を評価し、ソース検証、部分ベース推論、長期計画における失敗をサーフェスするエラー解析を行う。
関連論文リスト
- MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning [6.327006563699527]
本稿では,大規模言語モデル(LLM)駆動検索エージェントのトレーニング手法であるSearchExpertを紹介する。
我々は、トークン消費を減らすために、効率的な自然言語表現で探索計画を再構築する。
推論集約的な探索能力を向上させるために,探索フィードバックからの強化学習を提案する。
論文 参考訳(メタデータ) (2025-05-24T19:00:36Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。