論文の概要: Towards Long-horizon Agentic Multimodal Search
- arxiv url: http://arxiv.org/abs/2604.12890v1
- Date: Tue, 14 Apr 2026 15:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.539679
- Title: Towards Long-horizon Agentic Multimodal Search
- Title(参考訳): 長距離エージェントマルチモーダルサーチに向けて
- Authors: Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 本稿では,LMM-Searcher という,ファイルベースの視覚的表現機構を中心とした新しい多モード深層検索フレームワークを提案する。
エージェントに調整されたフェッチ・イメージ・ツールを装備し、能動的知覚のためのプログレッシブでオンデマンドなビジュアル・ローディング・ストラテジーを実現する。
提案手法は,100ターンの探索地平線へのスケールアップに成功し,オープンソースモデル間の最先端性能を実現した。
- 参考スコア(独自算出の注目度): 109.0092257657625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.
- Abstract(参考訳): マルチモーダルディープサーチエージェントは、テキストや視覚的証拠を反復的に収集することで、複雑なタスクを解く大きな可能性を示している。
しかし、従来の手法では、コンテキストの爆発や重要な視覚信号の喪失に悩まされることがしばしばあるため、長い地平線上でのマルチモーダル入力に関連する異種情報と高いトークンコストの管理は、依然として重要な課題である。
そこで我々は,LMM-Searcher という,ファイルベースの視覚的表現機構を中心にした,Long-Horizon MultiModal Deep Search フレームワークを提案する。
視覚的アセットを外部ファイルシステムにオフロードし、それらを軽量テキスト識別子(UID)にマッピングすることで、我々のアプローチは、将来のアクセスのためのマルチモーダル情報を保持しながら、コンテキストオーバーヘッドを軽減します。
エージェントに調整されたフェッチ・イメージ・ツールを装備し、能動的知覚のためのプログレッシブでオンデマンドなビジュアル・ローディング・ストラテジーを実現する。
さらに、複雑なクロスモーダルなマルチホップ推論を必要とするクエリを生成するために設計されたデータ合成パイプラインを導入する。
このパイプラインを用いて,Qwen3-VL-Thinking-30A3Bに12Kの高品質な軌道を蒸留し,多モード深部探索を行う。
MM-BrowseComp や MMSearch-Plus といった長軸ベンチマークに挑戦するオープンソースモデルにおいて,提案手法が100ターンの探索地平線へのスケールアップに成功し,また,異なるベースモデルに対して高い一般化性を示した。
私たちのコードはhttps://github.com/RUCAIBox/LMM-Searcherでリリースされます。
関連論文リスト
- MTA-Agent: An Open Recipe for Multimodal Deep Search Agents [51.180338423927985]
MLLM(Multi-hop large language model)は、視覚的理解において強力な能力を示しているが、複雑な多段階推論において制限されている。
証拠ベースQA合成のためのマルチホップツール拡張エージェント(MTA-Agent)を提案する。
MTA-Agentは、視覚的およびテキストソースから証拠を検索し、検証するためのツールとそのパラメータを自動的に選択する。
論文 参考訳(メタデータ) (2026-04-07T19:01:45Z) - VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning [22.27364585438247]
VSearcherは、マルチモーダル検索エージェントで、現実世界のWeb環境での長時間のマルチターンツールの使用を可能にする。
大規模で複雑なマルチモーダルQA質問を生成するために、反復射出データ合成パイプラインを導入する。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
論文 参考訳(メタデータ) (2026-03-03T09:33:22Z) - DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。
データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。
まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。
第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文 参考訳(メタデータ) (2026-02-02T18:32:48Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。