論文の概要: Influence Guided Context Selection for Effective Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.21359v1
- Date: Sun, 21 Sep 2025 07:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.86728
- Title: Influence Guided Context Selection for Effective Retrieval-Augmented Generation
- Title(参考訳): 効率的な検索拡張生成のための文脈選択の影響
- Authors: Jiale Deng, Yanyan Shen, Ziyuan Pei, Youmin Chen, Linpeng Huang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の幻覚に対処する。
既存のアプローチは、定義済みのコンテキスト品質評価指標に基づいて、コンテキスト選択によるパフォーマンスの向上を試みる。
我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
リストから各コンテキストを除去する際の性能劣化を測定することにより、コンテキスト品質を定量化する。
- 参考スコア(独自算出の注目度): 23.188397777606095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) addresses large language model (LLM) hallucinations by grounding responses in external knowledge, but its effectiveness is compromised by poor-quality retrieved contexts containing irrelevant or noisy information. While existing approaches attempt to improve performance through context selection based on predefined context quality assessment metrics, they show limited gains over standard RAG. We attribute this limitation to their failure in holistically utilizing available information (query, context list, and generator) for comprehensive quality assessment. Inspired by recent advances in data selection, we reconceptualize context quality assessment as an inference-time data valuation problem and introduce the Contextual Influence Value (CI value). This novel metric quantifies context quality by measuring the performance degradation when removing each context from the list, effectively integrating query-aware relevance, list-aware uniqueness, and generator-aware alignment. Moreover, CI value eliminates complex selection hyperparameter tuning by simply retaining contexts with positive CI values. To address practical challenges of label dependency and computational overhead, we develop a parameterized surrogate model for CI value prediction during inference. The model employs a hierarchical architecture that captures both local query-context relevance and global inter-context interactions, trained through oracle CI value supervision and end-to-end generator feedback. Extensive experiments across 8 NLP tasks and multiple LLMs demonstrate that our context selection method significantly outperforms state-of-the-art baselines, effectively filtering poor-quality contexts while preserving critical information. Code is available at https://github.com/SJTU-DMTai/RAG-CSM.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、外部知識の応答を根拠として、大きな言語モデル(LLM)の幻覚に対処するが、その効果は、無関係またはうるさい情報を含む不適切な検索コンテキストによって損なわれる。
既存の手法では、事前定義された文脈品質評価指標に基づく文脈選択による性能向上を試みているが、標準的なRAGよりも限られた利得を示している。
この制限は、利用可能な情報(クエリ、コンテキストリスト、ジェネレータ)を総合的な品質評価に利用できないことに起因する。
データ選択の最近の進歩に触発されて、我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
この新しい尺度は、リストから各コンテキストを削除する際の性能劣化を測定し、クエリ対応の関連性、リスト対応の独自性、ジェネレータ対応のアライメントを効果的に統合することにより、コンテキスト品質を定量化する。
さらに、CI値は、正のCI値でコンテキストを保持するだけで、複雑な選択ハイパーパラメータチューニングを排除します。
ラベル依存性と計算オーバーヘッドの現実的な課題に対処するため,推論中のCI値予測のためのパラメータ化サロゲートモデルを開発した。
このモデルは階層的なアーキテクチャを採用し、ローカルなクエリコンテキスト関連性とグローバルなコンテキスト間インタラクションの両方をキャプチャし、オラクルCI値監視とエンドツーエンドジェネレータフィードバックを通じてトレーニングする。
8つのNLPタスクと複数のLLMにわたる大規模な実験により、我々の文脈選択法は最先端のベースラインを著しく上回り、品質の悪いコンテキストを効果的にフィルタリングし、重要な情報を保存する。
コードはhttps://github.com/SJTU-DM Tai/RAG-CSMで入手できる。
関連論文リスト
- Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。
VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文 参考訳(メタデータ) (2024-09-18T16:10:47Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。