論文の概要: Retrieval-Augmented Generation as Noisy In-Context Learning: A Unified Theory and Risk Bounds
- arxiv url: http://arxiv.org/abs/2506.03100v3
- Date: Mon, 09 Jun 2025 10:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.12548
- Title: Retrieval-Augmented Generation as Noisy In-Context Learning: A Unified Theory and Risk Bounds
- Title(参考訳): 雑音のあるインコンテキスト学習としての検索強化生成:統一理論とリスク境界
- Authors: Yang Guo, Yutian Tao, Yifei Ming, Robert D. Nowak, Yingyu Liang,
- Abstract要約: In-context linear regression における RAG に対する最初の有限サンプル一般化法を提案する。
我々のフレームワークは、検索したテキストを、クエリ依存のノイズのあるインコンテキストの例と見なしている。
解析の結果, ICLとは対照的にRAG上に本態性天井が存在することが示唆された。
- 参考スコア(独自算出の注目度): 31.30656916610626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) has seen many empirical successes in recent years by aiding the LLM with external knowledge. However, its theoretical aspect has remained mostly unexplored. In this paper, we propose the first finite-sample generalization bound for RAG in in-context linear regression and derive an exact bias-variance tradeoff. Our framework views the retrieved texts as query-dependent noisy in-context examples and recovers the classical in-context learning (ICL) and standard RAG as the limit cases. Our analysis suggests that an intrinsic ceiling on generalization error exists on RAG as opposed to the ICL. Furthermore, our framework is able to model retrieval both from the training data and from external corpora by introducing uniform and non-uniform RAG noise. In line with our theory, we show the sample efficiency of ICL and RAG empirically with experiments on common QA benchmarks, such as Natural Questions and TriviaQA.
- Abstract(参考訳): 検索増強世代(RAG)は近年,LLMを外部知識で支援することで多くの経験的成功を経験してきた。
しかし、その理論的な側面はほとんど解明されていない。
本稿では, RAG に対する最初の有限サンプル一般化をコンテキスト内線形回帰において提案し, 正確なバイアス分散トレードオフを導出する。
提案フレームワークは,検索したテキストをクエリ依存のノイズのあるインコンテキストの例とみなし,古典的インコンテキスト学習(ICL)と標準RAGを制限ケースとして回復する。
解析の結果, ICLとは対照的にRAG上に本態性天井が存在することが示唆された。
さらに、トレーニングデータと外部コーパスの両方から一様かつ一様でないRAGノイズを導入して、検索をモデル化することができる。
本理論ではICLとRAGのサンプル効率を,Natural QuestionsやTriviaQAといった一般的なQAベンチマークで実験的に検証した。
関連論文リスト
- Generalization Analysis for Supervised Contrastive Representation Learning under Non-IID Settings [8.732260277121547]
非$i.d.$設定でContrastive Representation Learningフレームワークの一般化分析を行う。
そのクラスに関連する学習可能な表現のクラスを包含する数の対数として、各クラスで必要となるサンプル数を示す境界を導出する。
次に、線形写像やニューラルネットワークなどの共通関数クラスに対する過剰なリスク境界を導出するために、本研究の主な結果を適用する。
論文 参考訳(メタデータ) (2025-05-08T04:26:41Z) - Insight-RAG: Enhancing LLMs with Insight-Driven Augmentation [4.390998479503661]
本稿では,インサイトに基づく文書検索のための新しいフレームワークであるInsight-RAGを提案する。
Insight-RAG の初期段階では,従来の検索手法の代わりに LLM を用いて入力クエリとタスクを解析する。
従来のRAG手法と同様に、元のクエリを抽出した洞察と統合することにより、最終的なLCMを用いて、文脈的に豊かで正確な応答を生成する。
論文 参考訳(メタデータ) (2025-03-31T19:50:27Z) - Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models [20.605487145370752]
不完全な検索強化は避けられ、一般的であり、有害であることがわかった。
本稿では,不完全検索拡張に耐性を持つ新しいRAG手法であるAstute RAGを提案する。
GeminiとClaudeによる実験は、従来の堅牢性強化RAGアプローチと比較して、Astute RAGの優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-09T17:59:58Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。