論文の概要: Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models
- arxiv url: http://arxiv.org/abs/2505.03075v1
- Date: Mon, 05 May 2025 23:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.148552
- Title: Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models
- Title(参考訳): 直接検索強化最適化:知識選択と言語モデルの相乗化
- Authors: Zhengliang Shi, Lingyong Yan, Weiwei Sun, Yue Feng, Pengjie Ren, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: 本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
- 参考スコア(独自算出の注目度): 83.8639566087953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) integrates large language models ( LLM s) with retrievers to access external knowledge, improving the factuality of LLM generation in knowledge-grounded tasks. To optimize the RAG performance, most previous work independently fine-tunes the retriever to adapt to frozen LLM s or trains the LLMs to use documents retrieved by off-the-shelf retrievers, lacking end-to-end training supervision. Recent work addresses this limitation by jointly training these two components but relies on overly simplifying assumptions of document independence, which has been criticized for being far from real-world scenarios. Thus, effectively optimizing the overall RAG performance remains a critical challenge. We propose a direct retrieval-augmented optimization framework, named DRO, that enables end-to-end training of two key components: (i) a generative knowledge selection model and (ii) an LLM generator. DRO alternates between two phases: (i) document permutation estimation and (ii) re-weighted maximization, progressively improving RAG components through a variational approach. In the estimation step, we treat document permutation as a latent variable and directly estimate its distribution from the selection model by applying an importance sampling strategy. In the maximization step, we calibrate the optimization expectation using importance weights and jointly train the selection model and LLM generator. Our theoretical analysis reveals that DRO is analogous to policy-gradient methods in reinforcement learning. Extensive experiments conducted on five datasets illustrate that DRO outperforms the best baseline with 5%-15% improvements in EM and F1. We also provide in-depth experiments to qualitatively analyze the stability, convergence, and variance of DRO.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル (LLM s) とレトリバーを統合して外部知識にアクセスし、知識基底タスクにおけるLLM生成の事実性を改善する。
RAGの性能を最適化するために、以前のほとんどの作業は、リトリーバーを独立に微調整して凍結したLCMに適合させたり、LLMに棚外のレトリーバーが取得した文書を使用するよう訓練し、エンドツーエンドのトレーニングの監督を欠いていた。
最近の研究は、これらの2つのコンポーネントを共同でトレーニングすることでこの制限に対処するが、現実のシナリオから遠く離れているとして批判されている文書独立の仮定を過度に単純化することに依存している。
したがって、全体的なRAG性能を効果的に最適化することは、依然として重要な課題である。
そこで我々は,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にする,DROという直接検索拡張最適化フレームワークを提案する。
一 生成的知識選択モデル及び生産的知識選択モデル
(ii) LLM ジェネレータ。
DROは2つのフェーズを交互に切り替える。
(i)文書置換推定及び文書置換推定
(II) 変分法によりRAG成分を漸進的に改善し, 再加重最大化を図った。
推定ステップでは,文書置換を潜時変数として扱い,重要サンプリング戦略を適用して選択モデルから直接分布を推定する。
最大化ステップでは、重み付けによる最適化期待度を調整し、選択モデルとLLMジェネレータを共同で訓練する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
5つのデータセットで実施された大規模な実験によると、DROはEMとF1の5%から15%の改善で最高のベースラインを上回っている。
また,DROの安定性,収束性,分散性を定性的に解析するための詳細な実験も提供する。
関連論文リスト
- Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。