論文の概要: Securing the Floor and Raising the Ceiling: A Merging-based Paradigm for Multi-modal Search Agents
- arxiv url: http://arxiv.org/abs/2603.01416v1
- Date: Mon, 02 Mar 2026 03:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.668406
- Title: Securing the Floor and Raising the Ceiling: A Merging-based Paradigm for Multi-modal Search Agents
- Title(参考訳): 床の確保とシーリング:マルチモーダル検索エージェントのための統合型パラダイム
- Authors: Zhixiang Wang, Jingxuan Xu, Dajun Chen, Yunfang Wu, Wei Jiang, Yong Li,
- Abstract要約: 本稿では,自律的な探索機能を備えた視覚言語モデルを実現するための訓練自由パラダイムを提案する。
テキストベースの検索エージェントをベースVLMに融合させることで,追加のマルチモーダルトレーニングデータなしで効率的にマルチモーダル検索機能を構成することができることを示す。
- 参考スコア(独自算出の注目度): 20.119608534884858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have motivated the development of multi-modal search agents that can actively invoke external search tools and integrate retrieved evidence through multi-step reasoning. While promising, existing approaches typically rely on large-scale supervised trajectories or expensive reinforcement learning (RL), leading to high training cost, instability, and a severe cold-start problem for standard VLMs. We propose a training-free paradigm to empower VLMs with autonomous search capabilities via cross-modal model merging. By fusing a text-based search agent with a base VLM, we show that multi-modal search capabilities can be effectively composed without any additional multi-modal training data. To mitigate parameter interference during cross-modal integration, we introduce Optimal Brain Merging (OBM), a saliency-aware merging algorithm that identifies task-critical parameters based on their impact on model loss using only a small set of calibration samples. Extensive experiments on search-intensive benchmarks (e.g., InfoSeek, MMSearch) reveal that: (1) Model merging secures a reasonable performance floor as a zero-shot agent, with OBM achieving superior search rates; (2) OBM significantly raises the performance ceiling as a warm-start strategy, achieving faster convergence and higher peak accuracy than standard VLM initialization.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩は、外部検索ツールを積極的に起動し、多段階の推論を通じて得られた証拠を統合するマルチモーダル検索エージェントの開発を動機付けている。
有望ではあるが、既存のアプローチは一般的に大規模な教師付き軌道や高価な強化学習(RL)に依存しており、訓練コスト、不安定性、標準VLMの厳しいコールドスタート問題の原因となっている。
クロスモーダルモデルマージによる自律検索機能を備えたVLMのトレーニング不要パラダイムを提案する。
テキストベースの検索エージェントをベースVLMに融合させることで,追加のマルチモーダルトレーニングデータなしで効率的にマルチモーダル検索機能を構成することができることを示す。
クロスモーダル統合時のパラメータ干渉を軽減するために,少数のキャリブレーションサンプルのみを用いて,モデル損失に対する影響に基づいてタスククリティカルパラメータを識別する,サリエンシ対応マージアルゴリズムであるOBMを導入する。
検索集約型ベンチマーク(例えばInfoSeek,MMSearch)では,(1)モデルマージはゼロショットエージェントとして適切なパフォーマンスフロアを確保でき,(2)OBMはサーチレートに優れ,(2)OBMはウォームスタート戦略としてパフォーマンス天井を著しく高くし,標準VLMの初期化よりも早く収束とピーク精度の向上を実現している。
関連論文リスト
- VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning [22.27364585438247]
VSearcherは、マルチモーダル検索エージェントで、現実世界のWeb環境での長時間のマルチターンツールの使用を可能にする。
大規模で複雑なマルチモーダルQA質問を生成するために、反復射出データ合成パイプラインを導入する。
次に、SFT-then-RLトレーニングパイプラインを用いて、ベースマルチモーダルモデルを現実世界のWeb環境におけるマルチターンツール呼び出しが可能なエージェントに変換する。
論文 参考訳(メタデータ) (2026-03-03T09:33:22Z) - M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning [8.546005018618713]
M$3$Searcherはモジュラーマルチモーダル情報検索エージェントである。
M$3$Searcherは検索指向の多目的報酬で最適化されている。
MMSearchVQAは、検索中心のRLトレーニングをサポートするマルチモーダルマルチホップデータセットである。
論文 参考訳(メタデータ) (2026-01-14T08:27:40Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.083359974905655]
SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。
画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。
SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-30T16:31:45Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。