論文の概要: Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.00748v1
- Date: Tue, 01 Jul 2025 13:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.648073
- Title: Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning
- Title(参考訳): 強化学習によるMLLMにおけるマルチイメージグラウンドの推論の改善
- Authors: Bob Zhang, Haoran Li, Tao Zhang, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yanbin Hao,
- Abstract要約: MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、それらの性能は、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う際に低下する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論性能を改善する。
- 参考スコア(独自算出の注目度): 28.95877614294155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) excel at visual grounding in single-image scenarios with textual references. However, their performance degrades when handling real-world applications involving complex multi-image compositions and multimodal instructions, which reveals limitations in cross-image reasoning and generalization. To address these challenges, we adopt a Reinforcement Learning (RL) based post-training strategy to improve the reasoning performance of MLLMs in multi-image grounding tasks. Our approach begins with synthesizing high-quality chain-of-thought (CoT) data for cold-start initialization, followed by supervised fine-tuning (SFT) using low-rank adaptation (LoRA). The cold-start training stage enables the model to identify correct solutions. Subsequently, we perform rejection sampling using the merged SFT model to curate high-quality RL data and leverage rule-based RL to guide the model toward optimal reasoning paths. Extensive experimental results demonstrate the effectiveness of our approach, achieving +9.04\% improvements on MIG-Bench and +4.98\% improvements on several out-of-domain reasoning grounding benchmarks over the SFT baseline. Furthermore, our approach exhibits strong generalization in multi-image perception, with gains of +3.1\% and +2.4\% over the base model on subsets of the BLINK and MMIU benchmarks, respectively.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLMs) は,テキスト参照による単一画像シナリオの視覚的グラウンド化に長けている。
しかし、それらの性能は、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う際に低下し、クロスモーダル推論と一般化の限界が明らかになる。
これらの課題に対処するため、我々は強化学習(Reinforcement Learning, RL)に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論性能を改善する。
我々のアプローチは、コールドスタート初期化のための高品質チェーン・オブ・シント(CoT)データを合成することから始まり、続いてローランク適応(LoRA)を用いた教師付き微調整(SFT)を行う。
コールドスタートトレーニング段階は、モデルが正しいソリューションを特定することを可能にする。
その後、統合されたSFTモデルを用いて、高品質なRLデータをキュレートし、ルールベースのRLを利用してモデルを最適な推論経路へ導く。
その結果,MIG-Benchでは+9.04 %,SFTベースラインでは+4.98 %,SFTベースラインでは+4.98 %の改善が得られた。
さらに,本手法は,BLINKベンチマークとMMIUベンチマークのサブセット上で,ベースモデルに対して+3.1\%,+2.4\%のゲインを持つマルチイメージ知覚において,強い一般化を示す。
関連論文リスト
- PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying [7.9925771591348065]
コアコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
本研究では,クエリ,正,負のサンプルに対する情報NCE損失の勾配を詳細に解析する。
そこで本研究では, 強陰性サンプルに関連する勾配を明示的に増幅し, より識別的な埋め込みの学習を促すことを提案する。
論文 参考訳(メタデータ) (2025-05-28T11:18:19Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [33.574626079343936]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning [30.073631823776825]
ユニバーサルビジュアルグラウンドティングのための推論ガイド付きマルチモーダル言語モデル(MLLM)であるUniVG-R1を提案する。
まず,より詳細な推論連鎖を付加した高品質な起点データセットを構築した。
次に、ルールに基づく強化学習を行い、モデルに正しい推論連鎖を特定することを奨励し、それによって推論能力を高める。
論文 参考訳(メタデータ) (2025-05-20T11:40:43Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。