論文の概要: M2IO-R1: An Efficient RL-Enhanced Reasoning Framework for Multimodal Retrieval Augmented Multimodal Generation
- arxiv url: http://arxiv.org/abs/2508.06328v1
- Date: Fri, 08 Aug 2025 14:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.248319
- Title: M2IO-R1: An Efficient RL-Enhanced Reasoning Framework for Multimodal Retrieval Augmented Multimodal Generation
- Title(参考訳): M2IO-R1:マルチモーダル検索拡張マルチモーダル生成のための効率的なRL強化推論フレームワーク
- Authors: Zhiyou Xiao, Qinhan Yu, Binghui Li, Geng Chen, Chong Chen, Wentao Zhang,
- Abstract要約: マルチモーダル入力と出力の両方をサポートするMRAMG(Multimodal Retrieval-Augmented Multimodal Generation)の新しいフレームワークであるM2IO-R1を紹介する。
我々のフレームワークの中心となるのは,RL ベースのインサータ Inserter-R1-3B であり,画像選択と配置を制御可能で意味的に整合した方法でガイドするグループ相対的ポリシー最適化(Group Relative Policy Optimization)で訓練されている。
- 参考スコア(独自算出の注目度): 21.351389727009483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research on Multimodal Retrieval-Augmented Generation (MRAG) enables diverse multimodal inputs but remains limited to single-modality outputs, restricting expressive capacity and practical utility. In contrast, real-world applications often demand both multimodal inputs and multimodal outputs for effective communication and grounded reasoning. Motivated by the recent success of Reinforcement Learning (RL) in complex reasoning tasks for Large Language Models (LLMs), we adopt RL as a principled and effective paradigm to address the multi-step, outcome-driven challenges inherent in multimodal output generation. Here, we introduce M2IO-R1, a novel framework for Multimodal Retrieval-Augmented Multimodal Generation (MRAMG) that supports both multimodal inputs and outputs. Central to our framework is an RL-based inserter, Inserter-R1-3B, trained with Group Relative Policy Optimization to guide image selection and placement in a controllable and semantically aligned manner. Empirical results show that our lightweight 3B inserter achieves strong reasoning capabilities with significantly reduced latency, outperforming baselines in both quality and efficiency.
- Abstract(参考訳): MRAG(Multimodal Retrieval-Augmented Generation)に関する現在の研究は、多様なマルチモーダル入力を可能にするが、単一モーダル出力に限定され、表現能力と実用性を制限する。
対照的に、現実世界のアプリケーションは、効果的なコミュニケーションと基底推論のために、しばしばマルチモーダル入力とマルチモーダル出力の両方を要求する。
大規模言語モデル(LLM)の複雑な推論タスクにおける強化学習(Reinforcement Learning, RL)の成功により、我々はRLを原則的かつ効果的なパラダイムとして採用し、マルチモーダル出力生成に固有の多段階的な結果駆動的課題に対処する。
本稿では,M2IO-R1を紹介する。M2IO-R1は,マルチモーダル入力と出力の両方をサポートするMRAMG(Multimodal Retrieval-Augmented Multimodal Generation)のための新しいフレームワークである。
我々のフレームワークの中心は、RLベースのインサータであるInserter-R1-3Bであり、グループ相対ポリシー最適化を用いて訓練され、画像の選択と配置を制御可能で意味的に整合した方法でガイドする。
実験結果から, 軽量な3Bインサータは, レイテンシを著しく低減し, 品質, 効率の両面において, ベースラインを向上することを示す。
関連論文リスト
- Resource-Limited Joint Multimodal Sentiment Reasoning and Classification via Chain-of-Thought Enhancement and Distillation [22.722731231389393]
最近のアプローチは、主にパラメータ重(マルチモーダル)大規模言語モデル(LLM)の知識と推論能力を活用する。
本稿では,資源制限環境における配置制約に対処するマルチモーダル・チェーン・オブ・スチューデント・推論蒸留モデル MulCoT-RD を提案する。
4つのデータセットの実験により、3Bパラメータのみを持つMulCoT-RDは、堅牢な一般化と拡張された解釈可能性を示しながら、JMSRC上での強い性能を実現することが示された。
論文 参考訳(メタデータ) (2025-08-07T10:23:14Z) - Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:51:08Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。
提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文 参考訳(メタデータ) (2025-03-12T06:01:05Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。