論文の概要: MMSearch-R1: Incentivizing LMMs to Search
- arxiv url: http://arxiv.org/abs/2506.20670v1
- Date: Wed, 25 Jun 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.901772
- Title: MMSearch-R1: Incentivizing LMMs to Search
- Title(参考訳): MMSearch-R1:LMMを検索にインセンティブする
- Authors: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu,
- Abstract要約: MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
- 参考スコア(独自算出の注目度): 49.889749277236376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust deployment of large multimodal models (LMMs) in real-world scenarios requires access to external knowledge sources, given the complexity and dynamic nature of real-world information. Existing approaches such as retrieval-augmented generation (RAG) and prompt engineered search agents rely on rigid pipelines, often leading to inefficient or excessive search behaviors. We present MMSearch-R1, the first end-to-end reinforcement learning framework that enables LMMs to perform on-demand, multi-turn search in real-world Internet environments. Our framework integrates both image and text search tools, allowing the model to reason about when and how to invoke them guided by an outcome-based reward with a search penalty. To support training, We collect a multimodal search VQA dataset through a semi-automated pipeline that covers diverse visual and textual knowledge needs and curate a search-balanced subset with both search-required and search-free samples, which proves essential for shaping efficient and on-demand search behavior. Extensive experiments on knowledge-intensive and info-seeking VQA tasks show that our model not only outperforms RAG-based baselines of the same model size, but also matches the performance of a larger RAG-based model while reducing search calls by over 30%. We further analyze key empirical findings to offer actionable insights for advancing research in multimodal search.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を実世界のシナリオにロバストに展開するには、実世界の情報の複雑さと動的な性質を考慮すると、外部の知識ソースにアクセスする必要がある。
検索強化生成(RAG)のような既存のアプローチや、プロンプトされた検索エージェントは、しばしば非効率または過剰な探索行動を引き起こす、剛性パイプラインに依存している。
実世界のインターネット環境において,LMMがオンデマンドでマルチターン検索を行うことができる最初のエンドツーエンド強化学習フレームワークMMSearch-R1を提案する。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
学習を支援するため,多目的探索VQAデータセットを,多様な視覚的およびテキスト的知識を網羅した半自動パイプラインを通じて収集し,検索要求と検索不要の両方のサンプルを用いて探索バランスサブセットをキュレートする。
知識集約型および情報探索型VQAタスクの大規模な実験により、我々のモデルはRAGベースベースラインの同一モデルサイズを上回るだけでなく、より大きなRAGベースモデルの性能と一致し、サーチコールを30%以上削減することがわかった。
さらに、重要な経験的発見を分析し、マルチモーダル検索の研究を進めるための実用的な洞察を提供する。
関連論文リスト
- SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.183397387416065]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [95.48317207225378]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。