論文の概要: VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.02795v1
- Date: Tue, 03 Mar 2026 09:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.736099
- Title: VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning
- Title(参考訳): VSearcher:強化学習による長距離マルチモーダル検索エージェント
- Authors: Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng,
- Abstract要約: VSearcherは、マルチモーダル検索エージェントで、現実世界のWeb環境での長時間のマルチターンツールの使用を可能にする。
大規模で複雑なマルチモーダルQA質問を生成するために、反復射出データ合成パイプラインを導入する。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
- 参考スコア(独自算出の注目度): 22.27364585438247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large models are increasingly becoming autonomous agents that interact with real-world environments and use external tools to augment their static capabilities. However, most recent progress has focused on text-only large language models, which are limited to a single modality and therefore have narrower application scenarios. On the other hand, multimodal large models, while offering stronger perceptual capabilities, remain limited to static knowledge and lack the ability to access and leverage up-to-date web information. In this paper, we propose VSearcher, turning static multimodal model into multimodal search agent capable of long-horizon, multi-turn tool use in real-world web environments, including text search, image search, and web browsing, via reinforcement learning. Specifically, we introduce Iterative Injection Data Synthesis pipeline to generate large-scale, complex multimodal QA questions, which are further filtered with comprehensive metrics to ensure high quality and sufficient difficulty. We then adopt an SFT-then-RL training pipeline to turn base multimodal models to agent capable of multi-turn tool calling in real-world web environments. Besides, we propose a multimodal search benchmark MM-SearchExam dedicated to evaluating search capabilities of multimodal search agents, which proves highly challenging for recent proprietary models. Extensive evaluations across multiple multimodal search benchmarks reveal effectiveness of our method. VSearcher achieves superior performance compared to recent multimodal search agents and even surpasses several proprietary models on multimodal web search tasks.
- Abstract(参考訳): 大規模なモデルは、現実の環境と対話し、外部ツールを使用して静的能力を増強する自律エージェントになりつつある。
しかし、最近の進歩はテキストのみの大規模言語モデルに焦点が当てられている。
一方、マルチモーダルな大規模モデルは、より強力な知覚能力を提供する一方で、静的な知識に限られており、最新のWeb情報にアクセスし活用する能力に欠けています。
本稿では, テキスト検索, 画像検索, ウェブブラウジングなど実世界のWeb環境において, 長期的マルチモーダル検索が可能なマルチモーダル検索エージェントであるVSearcherを提案する。
具体的には、大規模で複雑なマルチモーダルQA質問を生成するための反復射出データ合成パイプラインを導入します。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
さらに,近年のプロプライエタリなモデルでは極めて困難であるマルチモーダル検索エージェントの検索能力を評価するためのマルチモーダル検索ベンチマークMM-SearchExamを提案する。
複数のマルチモーダル・サーチ・ベンチマークにまたがる広範囲な評価により,本手法の有効性が明らかとなった。
VSearcherは、最近のマルチモーダル検索エージェントよりも優れた性能を示し、マルチモーダルウェブ検索タスクにおけるいくつかのプロプライエタリなモデルを超えている。
関連論文リスト
- BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents [30.849897676091327]
マルチモーダル大規模言語モデル(MLLM)は、オープンワールド環境でマルチモーダルWebブラウジングとディープ検索を行う自律エージェントへと進化している。
我々はBrowseComp-$V3$という,300の慎重にキュレートされた,さまざまなドメインにまたがる挑戦的な質問からなる,新しいベンチマークを紹介した。
この結果から,現在のモデル機能と実環境における堅牢なマルチモーダルディープサーチとの根本的なギャップが浮き彫りになった。
論文 参考訳(メタデータ) (2026-02-13T12:25:13Z) - Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models [87.99592946216137]
Vision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートしている。
私たちのVision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートします。
論文 参考訳(メタデータ) (2026-01-29T17:58:40Z) - M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning [8.546005018618713]
M$3$Searcherはモジュラーマルチモーダル情報検索エージェントである。
M$3$Searcherは検索指向の多目的報酬で最適化されている。
MMSearchVQAは、検索中心のRLトレーニングをサポートするマルチモーダルマルチホップデータセットである。
論文 参考訳(メタデータ) (2026-01-14T08:27:40Z) - MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling [48.18456242206804]
本稿では、生涯モデリングフレームワークの両段階にわたるマルチモーダル信号の活用方法の体系的分析について述べる。
単純なマルチモーダル検索ベースのフレームワークであるMUSEを提案する。
MUSE は Taobao ディスプレイ広告システムに実装されており,100K 長のユーザ行動シーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-12-08T06:55:13Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。