論文の概要: InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search
- arxiv url: http://arxiv.org/abs/2605.07510v1
- Date: Fri, 08 May 2026 09:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.970005
- Title: InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search
- Title(参考訳): InterLV-Search:インターリーブマルチモーダルエージェント検索のベンチマーク
- Authors: Bohan Hou, Jiuning Gu, Jiayan Guo, Ronghao Dang, Sicong Leng, Xin Li, Xuemeng Song, Jianfei Yang,
- Abstract要約: 既存のベンチマークでは、マルチモーダル検索とビジュアルブラウジングが評価されているが、視覚的証拠は入力に限られるか、応答エンドポイントとして扱われる。
我々はInterleaved Language-Vision Agentic SearchのベンチマークであるtextbfInterLV-Searchを紹介する。
アクティブ・ビジュアル・エビデンス・サーチ、オフライン・インターリーブド・サーチ、オープン・ウェブ・インターリーブド・サーチの3段階にわたる2,061件のサンプルが含まれている。
- 参考スコア(独自算出の注目度): 38.39587091230621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce \textbf{InterLV-Search}, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench
- Abstract(参考訳): 既存のマルチモーダルエージェント検索のベンチマークでは、マルチモーダル検索とビジュアルブラウジングが評価されているが、視覚的証拠は入力に限られるか、インターリーブされた検索軌跡の一部ではなく、応答エンドポイントとして扱われる。
本稿では,Interleaved Language-Vision Agentic Search のベンチマークである \textbf{InterLV-Search} を紹介する。
アクティブ・ビジュアル・エビデンス・サーチ、オフライン・インターリーブ・マルチモーダル・サーチ、オープン・ウェブ・インターリーブ・マルチモーダル・サーチの3段階にわたる2,061件のサンプルが含まれている。
既存のベンチマーク以外にも、エビデンス検索中に複数のエンティティの比較を含むマルチモーダルなマルチブランチサンプルも含まれている。
自動パイプラインでレベル1とレベル2を構築し、マシン主導の人手によるオープンWebパイプラインでレベル3を構築します。
さらに、標準化されたツール使用、トラジェクトリロギング、評価のためのInterLV-Agentを提供する。
プロプライエタリでオープンソースのマルチモーダルエージェントの実験では、現在のシステムはインターリーブされたマルチモーダル検索の解決には程遠いままであり、最高のモデルは50%以下の精度で、視覚的エビデンス探索、検索制御、マルチモーダルエビデンス統合の課題を強調している。
ベンチマークデータと評価コードはhttps://github.com/hbhalpha/InterLV-Search-Benchで公開しています。
関連論文リスト
- Towards Long-horizon Agentic Multimodal Search [109.0092257657625]
本稿では,LMM-Searcher という,ファイルベースの視覚的表現機構を中心とした新しい多モード深層検索フレームワークを提案する。
エージェントに調整されたフェッチ・イメージ・ツールを装備し、能動的知覚のためのプログレッシブでオンデマンドなビジュアル・ローディング・ストラテジーを実現する。
提案手法は,100ターンの探索地平線へのスケールアップに成功し,オープンソースモデル間の最先端性能を実現した。
論文 参考訳(メタデータ) (2026-04-14T15:40:28Z) - VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents [27.574370658412864]
視覚ネイティブ検索のための新しいベンチマークVisBrowse-Benchを紹介した。
複数のドメインをカバーする169のVQAインスタンスを含んでいる。
探索過程におけるモデルの視覚的推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-17T09:24:13Z) - BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents [30.849897676091327]
マルチモーダル大規模言語モデル(MLLM)は、オープンワールド環境でマルチモーダルWebブラウジングとディープ検索を行う自律エージェントへと進化している。
我々はBrowseComp-$V3$という,300の慎重にキュレートされた,さまざまなドメインにまたがる挑戦的な質問からなる,新しいベンチマークを紹介した。
この結果から,現在のモデル機能と実環境における堅牢なマルチモーダルディープサーチとの根本的なギャップが浮き彫りになった。
論文 参考訳(メタデータ) (2026-02-13T12:25:13Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。