論文の概要: The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG System
- arxiv url: http://arxiv.org/abs/2605.27220v1
- Date: Tue, 26 May 2026 16:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.403781
- Title: The Coverage Illusion: From Pre-retrieval Routing Failure to Post-retrieval Cascades in a Production RAG System
- Title(参考訳): カバーIllusion:生産RAGシステムにおける検索前ルーティング障害から検索後カスケードまで
- Authors: Zafar Hussain, Kristoffer Nielbo,
- Abstract要約: 現代のRAGパイプラインでは、HyDEやクエリ拡張といったクエリ拡張手法が全てのクエリに適用されている。
デンマーク国立百科事典のケーススタディとして,20,000以上のクエリ・ワークフロー・ペアを5回検索した。
- 参考スコア(独自算出の注目度): 0.05055376568994175
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In modern RAG pipelines, query augmentation methods such as HyDE and query expansion are applied to every query, resulting in substantial LLM inference costs and increased end-to-end latency. The empirical justification for this overhead in real production traffic remains largely unexplored. We present a case study of the Danish National Encyclopedia, evaluating five retrieval workflows over 20,000 query-workflow pairs from production traffic and synthetic conditions. In this system, synthetic queries suggest that LLM augmentation is needed for over 90% of queries to achieve high retrieval coverage. However, under our production deferral policy, only 27.8% of real user queries need LLM augmentation. We call this gap the Coverage Illusion and attribute it to a structural mismatch between synthetic and real query distributions. Pre-retrieval routing cannot resolve this gap, as the need for LLM augmentation is only revealed after searching the index, a result confirmed by our evaluation of four machine learning paradigms. The coverage gap, undetectable from the query alone, motivates a post-retrieval cascade that runs workflows in cheapest-first order and escalates to LLM augmentation only when a step returns no documents. Operating entirely without training overhead or secondary serving infrastructure, the cascade improves quality by +0.140 Composite Overall points over Always-HyDE, reduces latency by 31.8%, and serves 72.2% of real user queries without LLM augmentation.
- Abstract(参考訳): 現代のRAGパイプラインでは、HyDEやクエリ拡張などのクエリ拡張手法が全てのクエリに適用され、LLM推論コストが大幅に増加し、エンドツーエンドのレイテンシが増大する。
実運用トラフィックにおけるこのオーバーヘッドに対する実証的な正当化は、ほとんど未解明のままである。
デンマーク国立百科事典のケーススタディとして,生産トラフィックと合成条件から,20,000以上のクエリ-ワークフローペアに対する5つの検索ワークフローを評価する。
本システムでは,高い検索範囲を実現するために,90%以上のクエリに対してLLM拡張が必要であることを示唆する。
しかしながら、当社の製品デリゲートの下では、実際のユーザクエリの27.8%しかLLMの拡張を必要としていません。
このギャップをCoverage Illusionと呼び、合成されたクエリ分布と実際のクエリ分布の間の構造的ミスマッチとみなす。
LLM拡張の必要性は、インデックス検索後にのみ明らかになるため、検索前ルーティングでは、このギャップを解消できない。
クエリだけでは検出できないカバレッジギャップは、ワークフローを最も安価に実行し、ステップがドキュメントを返さない場合にのみLLM拡張にエスカレートする、検索後のカスケードを動機付けている。
トレーニングオーバーヘッドやセカンダリサービスインフラストラクチャなしで完全に運用されているため、カスケードは、Always-HyDE上の+0.140の総合ポイントで品質を向上し、レイテンシを31.8%削減し、LLM拡張なしで実際のユーザクエリの72.2%を処理している。
関連論文リスト
- URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation [3.765602121469129]
本稿では,M-Solomonを提案する。M-Solomonは汎用なマルチモーダル埋め込みシステムで,クエリをいつ拡張するかを適応的に決定できる。
我々は,M-ソロモンが拡張を伴わずにベースラインを超えただけでなく,拡張を常に用いたベースラインよりも優れていたことを示す。
論文 参考訳(メタデータ) (2025-11-04T08:24:41Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains [2.1797343876622097]
強化学習(RL)の先行する言語モデル(LLM)には大きな利点があるが、かなりの計算コストが伴う。
本稿では,LCMをベースとした後方サンプリングのためのキャッシュ効率向上フレームワークを提案し,性能を向上しつつ,これらのコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-12T06:53:24Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - IC-Cache: Efficient Large Language Model Serving via In-context Caching [16.75800945078601]
IC-Cacheは、ライブ機能拡張によるサービス効率の向上を可能にするキャッシュシステムである。
IC-CacheはLCMのスループットを1.4~5.9倍改善し、応答品質を損なうことなく28~71%のレイテンシを低下させることを示した。
論文 参考訳(メタデータ) (2025-01-22T07:52:38Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。