論文の概要: MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation
- arxiv url: http://arxiv.org/abs/2512.17194v1
- Date: Fri, 19 Dec 2025 03:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.227601
- Title: MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation
- Title(参考訳): MMRAG-RFT: 説明可能なマルチモーダル検索強化ジェネレーションのための2段階強化微細調整
- Authors: Shengwei Zhao, Jingwen Yao, Sitong Wei, Linhai Xu, Yuying Liu, Dong Zhang, Zhiqiang Tian, Shaoyi Du,
- Abstract要約: MMRAG(Multi-modal Retrieval-Augmented Generation)は、外部のマルチモーダル知識を統合することで、信頼性の高い生成を可能にする。
既存のMMRAG法は、検索および応答生成の背後にある推論ロジックを明らかにすることができない。
- 参考スコア(独自算出の注目度): 31.90681057778075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Retrieval-Augmented Generation (MMRAG) enables highly credible generation by integrating external multi-modal knowledge, thus demonstrating impressive performance in complex multi-modal scenarios. However, existing MMRAG methods fail to clarify the reasoning logic behind retrieval and response generation, which limits the explainability of the results. To address this gap, we propose to introduce reinforcement learning into multi-modal retrieval-augmented generation, enhancing the reasoning capabilities of multi-modal large language models through a two-stage reinforcement fine-tuning framework to achieve explainable multi-modal retrieval-augmented generation. Specifically, in the first stage, rule-based reinforcement fine-tuning is employed to perform coarse-grained point-wise ranking of multi-modal documents, effectively filtering out those that are significantly irrelevant. In the second stage, reasoning-based reinforcement fine-tuning is utilized to jointly optimize fine-grained list-wise ranking and answer generation, guiding multi-modal large language models to output explainable reasoning logic in the MMRAG process. Our method achieves state-of-the-art results on WebQA and MultimodalQA, two benchmark datasets for multi-modal retrieval-augmented generation, and its effectiveness is validated through comprehensive ablation experiments.
- Abstract(参考訳): MMRAG(Multi-modal Retrieval-Augmented Generation)は、複雑なマルチモーダルシナリオにおいて、外部のマルチモーダル知識を統合することで、信頼性の高い生成を可能にする。
しかし、既存のMMRAG法では、検索と応答生成の背後にある推論ロジックを明確にすることができず、結果の説明可能性に制限がある。
このギャップに対処するため,マルチモーダル検索強化世代に強化学習を導入し,多モーダル大言語モデルの推論能力を2段階の強化微調整フレームワークで強化し,説明可能なマルチモーダル検索強化世代を実現することを提案する。
特に、第1段階では、ルールベースの強化微調整を用いて、多モード文書の粗粒度のポイントワイドランキングを行い、極めて無関係な文書を効果的にフィルタリングする。
第2段階では、推論に基づく強化微調整を用いて、MMRAGプロセスで説明可能な推論ロジックを出力するために、多モードの大規模言語モデルを誘導し、詳細なリストのランク付けと回答生成を共同で最適化する。
提案手法は,WebQAとMultimodalQA,マルチモーダル検索拡張生成のための2つのベンチマークデータセットの最先端化を実現し,その有効性は包括的アブレーション実験により検証する。
関連論文リスト
- Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings [70.60608084375691]
我々は、生成的埋め込みの探索の先駆者であり、生成的パラダイム内の埋め込みタスクを統合する。
UME-R1は,2段階のトレーニング戦略からなる汎用なマルチモーダル埋め込みフレームワークである。
ビデオ、画像、ビジュアルドキュメントにまたがる78タスクにわたるMMEB-V2ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-01T05:04:23Z) - M2IO-R1: An Efficient RL-Enhanced Reasoning Framework for Multimodal Retrieval Augmented Multimodal Generation [21.351389727009483]
マルチモーダル入力と出力の両方をサポートするMRAMG(Multimodal Retrieval-Augmented Multimodal Generation)の新しいフレームワークであるM2IO-R1を紹介する。
我々のフレームワークの中心となるのは,RL ベースのインサータ Inserter-R1-3B であり,画像選択と配置を制御可能で意味的に整合した方法でガイドするグループ相対的ポリシー最適化(Group Relative Policy Optimization)で訓練されている。
論文 参考訳(メタデータ) (2025-08-08T14:00:19Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。