論文の概要: Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2510.02745v1
- Date: Fri, 03 Oct 2025 06:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.282382
- Title: Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval
- Title(参考訳): Retrv-R1: 汎用的で効率的なマルチモーダル検索のための推論駆動型MLLMフレームワーク
- Authors: Lanyun Zhu, Deyi Ji, Tianrun Chen, Haiyang Wu, Shiqi Wang,
- Abstract要約: 本稿では,マルチモーダルユニバーサル検索に特化したR1スタイルMLLMであるRetrv-R1を紹介する。
検索タスクにDeepSeek-R1のメソッドを直接適用することは不可能である。
これらの問題に対処するため、Retrv-R1は詳細検査機構を備えた情報圧縮モジュールを導入した。
- 参考スコア(独自算出の注目度): 28.986143611245836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of DeepSeek-R1 demonstrates the immense potential of using reinforcement learning (RL) to enhance LLMs' reasoning capabilities. This paper introduces Retrv-R1, the first R1-style MLLM specifically designed for multimodal universal retrieval, achieving higher performance by employing step-by-step reasoning to produce more accurate retrieval results. We find that directly applying the methods of DeepSeek-R1 to retrieval tasks is not feasible, mainly due to (1) the high computational cost caused by the large token consumption required for multiple candidates with reasoning processes, and (2) the instability and suboptimal results when directly applying RL to train for retrieval tasks. To address these issues, Retrv-R1 introduces an information compression module with a details inspection mechanism, which enhances computational efficiency by reducing the number of tokens while ensuring that critical information for challenging candidates is preserved. Furthermore, a new training paradigm is proposed, including an activation stage using a retrieval-tailored synthetic CoT dataset for more effective optimization, followed by RL with a novel curriculum reward to improve both performance and efficiency. Incorporating these novel designs, Retrv-R1 achieves SOTA performance, high efficiency, and strong generalization ability, as demonstrated by experiments across multiple benchmarks and tasks.
- Abstract(参考訳): DeepSeek-R1の成功は、LLMの推論能力を高めるために強化学習(RL)を使用する大きな可能性を示している。
本稿では,マルチモーダルなユニバーサル検索に特化して設計された最初のR1スタイルMLLMであるRetrv-R1について述べる。
検索タスクにDeepSeek-R1の手法を直接適用することは,(1)複数の候補の推論処理に要する大きなトークン消費による高い計算コスト,(2)検索タスクにRLを直接適用する場合の不安定性と準最適結果など,実現不可能であることがわかった。
これらの問題に対処するため、Retrv-R1は詳細な検査機構を備えた情報圧縮モジュールを導入し、トークンの数を減らし計算効率を向上させるとともに、挑戦者の重要な情報が保存されることを保証する。
さらに、より効率的な最適化のために、検索調整された合成CoTデータセットを使用したアクティベーションステージを含む、新しいトレーニングパラダイムを提案し、続いて、パフォーマンスと効率の両方を改善するための新しいカリキュラム報酬をRLで提供する。
これらの新しい設計を取り入れたRetrv-R1は、複数のベンチマークやタスクで実証されたように、SOTAの性能、高い効率、強力な一般化能力を達成する。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。