論文の概要: Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval
- arxiv url: http://arxiv.org/abs/2509.06650v1
- Date: Mon, 08 Sep 2025 13:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.142368
- Title: Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval
- Title(参考訳): Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval
- Authors: Hao Lin, Peitong Xie, Jingxue Chen, Jie Lin, Qingkun Tang, Qianchun Lu,
- Abstract要約: MoLERは、MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法である。
MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
- 参考スコア(独自算出の注目度): 5.640810636056805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems rely heavily on the retrieval stage, particularly the coarse-ranking process. Existing coarse-ranking optimization approaches often struggle to balance domain-specific knowledge learning with query enhencement, resulting in suboptimal retrieval performance. To address this challenge, we propose MoLER, a domain-aware RAG method that uses MoL-Enhanced Reinforcement Learning to optimize retrieval. MoLER has a two-stage pipeline: a continual pre-training (CPT) phase using a Mixture of Losses (MoL) to balance domain-specific knowledge with general language capabilities, and a reinforcement learning (RL) phase leveraging Group Relative Policy Optimization (GRPO) to optimize query and passage generation for maximizing document recall. A key innovation is our Multi-query Single-passage Late Fusion (MSLF) strategy, which reduces computational overhead during RL training while maintaining scalable inference via Multi-query Multi-passage Late Fusion (MMLF). Extensive experiments on benchmark datasets show that MoLER achieves state-of-the-art performance, significantly outperforming baseline methods. MoLER bridges the knowledge gap in RAG systems, enabling robust and scalable retrieval in specialized domains.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは検索段階、特に粗いプロセスに大きく依存している。
既存の粗い最適化アプローチは、ドメイン固有の知識学習とクエリエンハンスメントのバランスをとるのに苦労することが多く、その結果、サブ最適検索性能が向上する。
この課題に対処するために,MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法であるMoLERを提案する。
MoLERは、ドメイン固有の知識と一般的な言語能力のバランスをとるためにMixture of Losses(MoL)を使用する継続事前学習(CPT)フェーズと、グループ相対ポリシー最適化(GRPO)を活用した強化学習(RL)フェーズを使用して、ドキュメントリコールを最大化するためのクエリとパス生成を最適化する。
この戦略は、Multi-query Multi-passage Late Fusion (MMLF)を介してスケーラブルな推論を維持しながら、RLトレーニング中の計算オーバーヘッドを低減する。
ベンチマークデータセットの大規模な実験により、MoLERは最先端のパフォーマンスを達成し、ベースライン法を著しく上回る結果となった。
MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
関連論文リスト
- Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues [10.280113107290067]
IM-RAGアプローチは、多ラウンドRAGをサポートするために、情報検索システムとLarge Language Models (LLM)を統合する。
IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレストラッカーが組み込まれ、中間段階の報酬が提供される。
提案手法は, 赤外線モジュールの統合において高い柔軟性を提供しながら, 最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-15T12:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。