論文の概要: Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG
- arxiv url: http://arxiv.org/abs/2602.03645v1
- Date: Tue, 03 Feb 2026 15:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.541888
- Title: Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG
- Title(参考訳): RAGにおける履歴認識Dense Retrieverの強化細調整
- Authors: Yicheng Zhang, Zhen Qin, Zhaomin Wu, Wenqi Zhang, Shuiguang Deng,
- Abstract要約: Retrieval-augmented Generation (RAG) は、大規模言語モデルがエビデンスベースの応答を生成することを可能にする。
既存のソリューションは、レトリバー最適化とRAGパイプラインの目標との客観的なミスマッチに悩まされている。
- 参考スコア(独自算出の注目度): 29.46121429194507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enables large language models (LLMs) to produce evidence-based responses, and its performance hinges on the matching between the retriever and LLMs. Retriever optimization has emerged as an efficient alternative to fine-tuning LLMs. However, existing solutions suffer from objective mismatch between retriever optimization and the goal of RAG pipeline. Reinforcement learning (RL) provides a promising solution to address this limitation, yet applying RL to retriever optimization introduces two fundamental challenges: 1) the deterministic retrieval is incompatible with RL formulations, and 2) state aliasing arises from query-only retrieval in multi-hop reasoning. To address these challenges, we replace deterministic retrieval with stochastic sampling and formulate RAG as a Markov decision process, making retriever optimizable by RL. Further, we incorporate retrieval history into the state at each retrieval step to mitigate state aliasing. Extensive experiments across diverse RAG pipelines, datasets, and retriever scales demonstrate consistent improvements of our approach in RAG performance.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)がエビデンスベースの応答を生成することを可能にする。
微調整LDMの効率的な代替手段として、レトリバー最適化が登場している。
しかし、既存のソリューションは、レトリバー最適化とRAGパイプラインの目標との客観的なミスマッチに悩まされている。
強化学習(RL)は、この制限に対処するための有望なソリューションを提供するが、レトリバー最適化にRLを適用することは、以下の2つの根本的な課題をもたらす。
1) 決定論的検索はRLの定式化と相容れない。
2) 状態エイリアス化はマルチホップ推論におけるクエリのみの検索から生じる。
これらの課題に対処するために、決定論的検索を確率的サンプリングに置き換え、マルコフ決定過程としてRAGを定式化し、RLによる検索を最適化する。
さらに、各検索ステップにおける状態に検索履歴を組み込んで、状態エイリアスを緩和する。
多様なRAGパイプライン、データセット、レトリバースケールにわたる大規模な実験は、RAGパフォーマンスにおける我々のアプローチの一貫した改善を示している。
関連論文リスト
- ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Generalized Reinforcement Learning for Retriever-Specific Query Rewriter with Unstructured Real-World Documents [4.200973008100858]
textbfRL-QRは、レトリバー固有のクエリ書き換えのための強化学習フレームワークである。
RL-QRは、特定のレトリバー用に調整されたクエリリライトを訓練し、さまざまなドメインにわたる検索性能を向上する。
以上の結果から, RL-QRがRAGシステムのクエリ最適化に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-31T04:55:21Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。
提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文 参考訳(メタデータ) (2024-12-02T14:55:02Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。