論文の概要: MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval
- arxiv url: http://arxiv.org/abs/2506.12364v1
- Date: Sat, 14 Jun 2025 05:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.985665
- Title: MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval
- Title(参考訳): MM-R5: 文書検索のための強化学習によるマルチモーダル推論強化ReRanker
- Authors: Mingjun Xu, Jinhan Dong, Jue Hou, Zehui Wang, Sihang Li, Zhifeng Gao, Renxin Zhong, Hengxing Cai,
- Abstract要約: 文書検索のための強化学習によるマルチモーダル推論強化ReRankerMM-R5を提案する。
MM-R5は教師付き微調整(SFT)と強化学習(RL)の2段階で訓練される
- 参考スコア(独自算出の注目度): 8.671997764964486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal document retrieval systems enable information access across text, images, and layouts, benefiting various domains like document-based question answering, report analysis, and interactive content summarization. Rerankers improve retrieval precision by reordering retrieved candidates. However, current multimodal reranking methods remain underexplored, with significant room for improvement in both training strategies and overall effectiveness. Moreover, the lack of explicit reasoning makes it difficult to analyze and optimize these methods further. In this paper, We propose MM-R5, a MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval, aiming to provide a more effective and reliable solution for multimodal reranking tasks. MM-R5 is trained in two stages: supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we focus on improving instruction-following and guiding the model to generate complete and high-quality reasoning chains. To support this, we introduce a novel data construction strategy that produces rich, high-quality reasoning data. In the RL stage, we design a task-specific reward framework, including a reranking reward tailored for multimodal candidates and a composite template-based reward to further refine reasoning quality. We conduct extensive experiments on MMDocIR, a challenging public benchmark spanning multiple domains. MM-R5 achieves state-of-the-art performance on most metrics and delivers comparable results to much larger models on the remaining ones. Moreover, compared to the best retrieval-only method, MM-R5 improves recall@1 by over 4%. These results validate the effectiveness of our reasoning-enhanced training pipeline.
- Abstract(参考訳): マルチモーダル文書検索システムは、テキスト、画像、レイアウト間の情報アクセスを可能にし、文書ベースの質問応答、レポート分析、インタラクティブコンテンツ要約といった様々な領域の恩恵を受ける。
リランカは、検索された候補を並べ替えることで、検索精度を向上させる。
しかし、現在のマルチモーダル・リグレード法はまだ未熟であり、トレーニング戦略と全体的な効果の両面で大きな改善の余地がある。
さらに、明示的な推論の欠如により、これらの手法のさらなる分析と最適化が困難になる。
本稿では,文書検索のための強化学習によるマルチモーダル推論強化ReRankerであるMM-R5を提案する。
MM-R5は、教師付き微調整(SFT)と強化学習(RL)の2段階で訓練される。
SFTの段階では,完全かつ高品質な推論チェーンを生成するためのモデルの構築と指導に重点を置いている。
これを支援するために,我々は,リッチで高品質な推論データを生成する新しいデータ構築戦略を導入する。
RLの段階では、マルチモーダルな候補に適した報酬と、より洗練された推論品質を実現するための複合テンプレートベースの報酬を含むタスク固有報酬フレームワークを設計する。
複数のドメインにまたがる公開ベンチマークであるMMDocIRについて広範な実験を行った。
MM-R5は、ほとんどのメトリクスで最先端のパフォーマンスを達成し、残りのメトリクスでずっと大きなモデルに匹敵する結果をもたらす。
さらに、最高の検索専用手法と比較して、MM-R5はリコール@1を4%以上改善する。
これらの結果は、推論強化トレーニングパイプラインの有効性を検証した。
関連論文リスト
- CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [33.574626079343936]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。
第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。
次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文 参考訳(メタデータ) (2024-06-25T07:20:11Z) - Multi-document Summarization with Maximal Marginal Relevance-guided
Reinforcement Learning [54.446686397551275]
RL-MMRは、古典的MDSで使用される高度な神経SDS法と統計測度を統一する。
RL-MMRは、より少ない有望な候補にMMRガイダンスを投入し、探索空間を抑え、より良い表現学習をもたらす。
論文 参考訳(メタデータ) (2020-09-30T21:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。