論文の概要: Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias
- arxiv url: http://arxiv.org/abs/2512.14313v1
- Date: Tue, 16 Dec 2025 11:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.701085
- Title: Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias
- Title(参考訳): 検索拡張ジェネレーションのための動的文脈選択:ディトラクタと位置バイアスの緩和
- Authors: Malika Iratni, Mohand Boughanem, Taoufiq Dkaki,
- Abstract要約: Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。
標準的なRAGシステムは、関連する情報を見逃したり、意味的に無関係な経路を導入することができる固定トップk検索戦略に依存している。
本稿では,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
- 参考スコア(独自算出の注目度): 1.7674345486888503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval Augmented Generation (RAG) enhances language model performance by incorporating external knowledge retrieved from large corpora, which makes it highly suitable for tasks such as open domain question answering. Standard RAG systems typically rely on a fixed top k retrieval strategy, which can either miss relevant information or introduce semantically irrelevant passages, known as distractors, that degrade output quality. Additionally, the positioning of retrieved passages within the input context can influence the model attention and generation outcomes. Context placed in the middle tends to be overlooked, which is an issue known as the "lost in the middle" phenomenon. In this work, we systematically analyze the impact of distractors on generation quality, and quantify their effects under varying conditions. We also investigate how the position of relevant passages within the context window affects their influence on generation. Building on these insights, we propose a context-size classifier that dynamically predicts the optimal number of documents to retrieve based on query-specific informational needs. We integrate this approach into a full RAG pipeline, and demonstrate improved performance over fixed k baselines.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。
標準的なRAGシステムは通常、関連する情報を見逃したり、イントラクタとして知られる意味的に無関係な経路を導入して出力品質を低下させるような固定されたトップk検索戦略に依存している。
さらに、入力コンテキスト内の検索されたパスの位置決めは、モデルの注意と生成結果に影響を与える可能性がある。
中間に位置するコンテキストは見過ごされがちであり、これは"中間にあるロスト"現象として知られる問題である。
本研究では,イントラクタが生成品質に与える影響を系統的に分析し,その影響を様々な条件下で定量化する。
また,コンテキストウィンドウ内の関連通路の位置が生成に与える影響についても検討した。
これらの知見に基づいて,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
このアプローチを完全なRAGパイプラインに統合し、固定kベースラインよりも優れたパフォーマンスを示す。
関連論文リスト
- Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - Influence Guided Context Selection for Effective Retrieval-Augmented Generation [23.188397777606095]
Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の幻覚に対処する。
既存のアプローチは、定義済みのコンテキスト品質評価指標に基づいて、コンテキスト選択によるパフォーマンスの向上を試みる。
我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
リストから各コンテキストを除去する際の性能劣化を測定することにより、コンテキスト品質を定量化する。
論文 参考訳(メタデータ) (2025-09-21T07:19:09Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。