論文の概要: Lost in the Evidence? Reproducing Document Position and Context Size Effects in RAG
- arxiv url: http://arxiv.org/abs/2605.27105v2
- Date: Wed, 27 May 2026 08:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.162126
- Title: Lost in the Evidence? Reproducing Document Position and Context Size Effects in RAG
- Title(参考訳): 証拠の喪失 : RAGにおける文書位置と文脈サイズ効果の再現
- Authors: Jorge Gabín, Anxo Perez, Javier Parapar,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、取得した文書がモデルの入力コンテキストに入力されることに依存する。
先行研究は、中年期の喪失や関連する長文現象のような位置に基づく効果を報告している。
トピックサンプリングが分散の主要な原因であることを示し、小さなトピックセットはオーダリング効果を誇張することができる。
また,より現実的なRAGシナリオについて検討した。
- 参考スコア(独自算出の注目度): 3.597778914286147
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems rely on retrieved documents being concatenated into a model's input context, making both document ordering and context size critical yet controversial design choices. Prior work reports position-based effects such as lost in the middle and related long-context phenomena. However, empirical findings remain inconsistent and hard to reproduce across models, datasets, and evaluation protocols. In this paper, we present a systematic reproducibility study that revisits these claims and examines how they evolve with contemporary LLMs under a controlled evaluation framework. We first show that topic sampling is a major source of variance: small topic sets can mask or exaggerate ordering effects. Based on repeated subset sampling across multiple topic budgets, we provide a practical calibration procedure that identifies topic counts yielding stable trends at feasible cost. Using these fixed topic sets, we then reproduce and extend results on position sensitivity, re-evaluating lost in the middle and positional biases in modern LLMs. Then, we also study a more realistic RAG scenario in which relevance is mediated by a retriever rather than oracle access to ground-truth documents. In this setting, we re-examine a recent industry study and identify discrepancies to evaluation choices such as limited topic coverage and reliance on LLM-based judges. Finally, we conduct an analysis of how retrieval order and context size affect downstream LLM performance under imperfect retrieval. Our results demonstrate that both factors interact strongly with retrieval quality and model choice, and that conclusions drawn from idealised setups do not always transfer to real-world RAG pipelines. We release all code and configurations to support reproducibility and future work on robust RAG evaluation.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、検索した文書をモデルの入力コンテキストにまとめることに依存し、文書の順序付けとコンテキストサイズの両方を批判的かつ議論の余地のある設計選択にする。
先行研究は、中年期の喪失や関連する長文現象のような位置に基づく効果を報告している。
しかし、実験的な発見は、モデル、データセット、評価プロトコル間では一貫性がなく、再現が難しいままである。
本稿では,これらの主張を再検討し,制御された評価枠組みの下で現代LLMとどのように進化するかを考察する,系統的再現性研究について述べる。
まず、トピックサンプリングが分散の主要な原因であることを示し、小さなトピックセットは順序付け効果をマスクまたは誇張することができる。
複数のトピック予算にまたがる反復的なサブセットサンプリングに基づいて,トピック数を特定する実用的なキャリブレーション手法を提案する。
これらの固定されたトピックセットを用いて位置感度に関する結果を再現・拡張し、現代LLMにおける中位偏差と位置偏差における損失を再評価する。
また,より現実的なRAGシナリオについて検討し,その関連性はオーラルアクセスではなく,レトリバーによって媒介されることを示した。
そこで,本研究では,最近の業界調査を再検討し,限定的なトピックカバレッジやLCMに基づく審査への依存など,選択肢評価の相違点を同定する。
最後に,不完全な検索において,検索順序とコンテキストサイズが下流LLM性能に与える影響を解析する。
以上の結果から,両要因が検索品質とモデル選択と強く相互作用し,理想化された設定から引き出された結論が実世界のRAGパイプラインに常に伝達されることが示唆された。
再現性と堅牢なRAG評価に関する今後の作業をサポートするため、すべてのコードと構成をリリースします。
関連論文リスト
- Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation [51.55755193937205]
提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
論文 参考訳(メタデータ) (2026-04-19T08:39:21Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias [1.7674345486888503]
Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。
標準的なRAGシステムは、関連する情報を見逃したり、意味的に無関係な経路を導入することができる固定トップk検索戦略に依存している。
本稿では,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
論文 参考訳(メタデータ) (2025-12-16T11:30:40Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - The Power of Noise: Redefining Retrieval for RAG Systems [19.387105120040157]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。
我々は、RAGソリューションが取得すべきパスIRシステムの種類に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。