論文の概要: Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.02091v1
- Date: Thu, 02 Apr 2026 14:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.852485
- Title: Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning
- Title(参考訳): 強化学習によるLLMフィードバックによるRAGリランカの最適化
- Authors: Yuhang Wu, Xiangqing Shen, Fanfan Wang, Cangqi Zhou, Zhen Wu, Xinyu Dai, Rui Xia,
- Abstract要約: リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
- 参考スコア(独自算出の注目度): 47.963236269307735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rerankers play a pivotal role in refining retrieval results for Retrieval-Augmented Generation. However, current reranking models are typically optimized on static human annotated relevance labels in isolation, decoupled from the downstream generation process. This isolation leads to a fundamental misalignment: documents identified as topically relevant by information retrieval metrics often fail to provide the actual utility required by the LLM for precise answer generation. To bridge this gap, we introduce ReRanking Preference Optimization (RRPO), a reinforcement learning framework that directly aligns reranking with the LLM's generation quality. By formulating reranking as a sequential decision-making process, RRPO optimizes for context utility using LLM feedback, thereby eliminating the need for expensive human annotations. To ensure training stability, we further introduce a reference-anchored deterministic baseline. Extensive experiments on knowledge-intensive benchmarks demonstrate that RRPO significantly outperforms strong baselines, including the powerful list-wise reranker RankZephyr. Further analysis highlights the versatility of our framework: it generalizes seamlessly to diverse readers (e.g., GPT-4o), integrates orthogonally with query expansion modules like Query2Doc, and remains robust even when trained with noisy supervisors.
- Abstract(参考訳): リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
しかし、現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化されている。
情報検索メトリクスによってトポロジ的に関連づけられた文書は、正確な回答生成のためにLLMが必要とする実際のユーティリティを提供するのに失敗することが多い。
このギャップを埋めるために、LLMの世代品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization (RRPO)を導入する。
逐次的な意思決定プロセスとして再ランク付けを定式化することにより、RRPOはLLMフィードバックを使用してコンテキストユーティリティを最適化し、高価な人的アノテーションを不要にする。
さらに,トレーニングの安定性を確保するために,基準アンコールによる決定論的ベースラインを導入する。
知識集約型ベンチマークに関する大規模な実験により、RRPOは強力なリストワイドリランカであるRanZephyrなど、強いベースラインを著しく上回っていることが示された。
多様な読者(例えばGPT-4o)にシームレスに一般化し、Query2Docのようなクエリ拡張モジュールと直交的に統合し、ノイズの多いスーパーバイザでトレーニングしても堅牢なままです。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Enhancing Retrieval-Augmented Generation with Two-Stage Retrieval: FlashRank Reranking and Query Expansion [0.0]
RAGは、大きな言語モデル(LLM)とレトリバーを結合して、外部のエビデンスで生成された応答を接地する。
LLM駆動型クエリ拡張を統合して候補リコールを改善する2段階検索パイプラインを提案する。
FlashRankは、トークン予算の下で最適な証拠のサブセットを動的に選択する高速な限界効用リランカである。
論文 参考訳(メタデータ) (2025-10-17T15:08:17Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Query Optimization for Parametric Knowledge Refinement in Retrieval-Augmented Large Language Models [25.390142515721802]
ERRRフレームワークは、検索-拡張生成(RAG)システムにおける事前検索情報ギャップを橋渡しするように設計されている。
RAGで使用される従来のクエリ最適化手法とは異なり、ERRRフレームワークはLarge Language Models (LLM) から知識を抽出することから始まる。
論文 参考訳(メタデータ) (2024-11-12T14:12:45Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。