Fugu-MT 論文翻訳(概要): MMSearch-R1: Incentivizing LMMs to Search

論文の概要: MMSearch-R1: Incentivizing LMMs to Search

arxiv url: http://arxiv.org/abs/2506.20670v1
Date: Wed, 25 Jun 2025 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 21:00:42.901772
Title: MMSearch-R1: Incentivizing LMMs to Search
Title（参考訳）: MMSearch-R1:LMMを検索にインセンティブする
Authors: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu,
Abstract要約: MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
参考スコア（独自算出の注目度）: 49.889749277236376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust deployment of large multimodal models (LMMs) in real-world scenarios requires access to external knowledge sources, given the complexity and dynamic nature of real-world information. Existing approaches such as retrieval-augmented generation (RAG) and prompt engineered search agents rely on rigid pipelines, often leading to inefficient or excessive search behaviors. We present MMSearch-R1, the first end-to-end reinforcement learning framework that enables LMMs to perform on-demand, multi-turn search in real-world Internet environments. Our framework integrates both image and text search tools, allowing the model to reason about when and how to invoke them guided by an outcome-based reward with a search penalty. To support training, We collect a multimodal search VQA dataset through a semi-automated pipeline that covers diverse visual and textual knowledge needs and curate a search-balanced subset with both search-required and search-free samples, which proves essential for shaping efficient and on-demand search behavior. Extensive experiments on knowledge-intensive and info-seeking VQA tasks show that our model not only outperforms RAG-based baselines of the same model size, but also matches the performance of a larger RAG-based model while reducing search calls by over 30%. We further analyze key empirical findings to offer actionable insights for advancing research in multimodal search.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)を実世界のシナリオにロバストに展開するには、実世界の情報の複雑さと動的な性質を考慮すると、外部の知識ソースにアクセスする必要がある。検索強化生成(RAG)のような既存のアプローチや、プロンプトされた検索エージェントは、しばしば非効率または過剰な探索行動を引き起こす、剛性パイプラインに依存している。実世界のインターネット環境において,LMMがオンデマンドでマルチターン検索を行うことができる最初のエンドツーエンド強化学習フレームワークMMSearch-R1を提案する。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。学習を支援するため,多目的探索VQAデータセットを,多様な視覚的およびテキスト的知識を網羅した半自動パイプラインを通じて収集し,検索要求と検索不要の両方のサンプルを用いて探索バランスサブセットをキュレートする。知識集約型および情報探索型VQAタスクの大規模な実験により、我々のモデルはRAGベースベースラインの同一モデルサイズを上回るだけでなく、より大きなRAGベースモデルの性能と一致し、サーチコールを30%以上削減することがわかった。さらに、重要な経験的発見を分析し、マルチモーダル検索の研究を進めるための実用的な洞察を提供する。

関連論文リスト

DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [4.817888539036794]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文参考訳（メタデータ） (2025-07-23T09:58:31Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。 R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文参考訳（メタデータ） (2025-06-04T17:29:22Z)
SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文参考訳（メタデータ） (2025-05-12T09:45:40Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.183397387416065]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文参考訳（メタデータ） (2025-03-25T09:00:58Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [95.48317207225378]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文参考訳（メタデータ） (2024-09-19T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。