論文の概要: Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment
- arxiv url: http://arxiv.org/abs/2603.02153v1
- Date: Mon, 02 Mar 2026 18:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.024802
- Title: Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment
- Title(参考訳): RAG Fusionによる検索拡張生成のスケールアップ - 産業展開からの教訓
- Authors: Luigi Medrano, Arush Verma, Mukul Chhabra,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは一般にドキュメントリコールを改善するために検索融合技術を採用している。
本研究では,企業知識ベース上で運用される実運用型RAGパイプラインにおける検索融合を評価する。
検索融合は生のリコールを増大させるが、再ランク付けと切り離しにより、これらのゲインはほぼ中和される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems commonly adopt retrieval fusion techniques such as multi-query retrieval and reciprocal rank fusion (RRF) to increase document recall, under the assumption that higher recall leads to better answer quality. While these methods show consistent gains in isolated retrieval benchmarks, their effectiveness under realistic production constraints remains underexplored. In this work, we evaluate retrieval fusion in a production-style RAG pipeline operating over an enterprise knowledge base, with fixed retrieval depth, re-ranking budgets, and latency constraints. Across multiple fusion configurations, we find that retrieval fusion does increase raw recall, but these gains are largely neutralized after re-ranking and truncation. In our setting, fusion variants fail to outperform single-query baselines on KB-level Top-$k$ accuracy, with Hit@10 decreasing from $0.51$ to $0.48$ in several configurations. Moreover, fusion introduces additional latency overhead due to query rewriting and larger candidate sets, without corresponding improvements in downstream effectiveness. Our analysis suggests that recall-oriented fusion techniques exhibit diminishing returns once realistic re-ranking limits and context budgets are applied. We conclude that retrieval-level improvements do not reliably translate into end-to-end gains in production RAG systems, and argue for evaluation frameworks that jointly consider retrieval quality, system efficiency, and downstream impact.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、通常、高いリコールがより良い回答品質をもたらすという仮定のもと、文書のリコールを改善するために、マルチクエリ検索や相互ランクフュージョン(RRF)のような検索融合技術を採用する。
これらの手法は、一貫した検索ベンチマークにおいて一貫した利得を示すが、現実的な生産制約下での有効性は未解明のままである。
本研究では,企業知識ベース上で稼働する実運用型RAGパイプラインにおける検索融合を,固定された検索深度,予算の再評価,遅延制約を用いて評価する。
複数の融合構成全体にわたって、検索融合は生のリコールを増大させるが、これらのゲインは再ランク付けと切り離し後にほぼ中和される。
私たちの設定では、融合変種はKBレベルのTop-$k$精度でシングルクエリベースラインを上回りませんが、Hit@10はいくつかの設定で0.51$から0.48$に減少します。
さらに、Fusionは、ダウンストリームの有効性を向上することなく、クエリ書き換えとより大きな候補セットによる追加の遅延オーバーヘッドを導入している。
本分析は,リコール指向核融合技術が現実的なリランクリミットとコンテキスト予算を適用した場合,リコール指向核融合技術はリターンが低下することを示すことを示唆している。
我々は,検索レベルの改善が実運用RAGシステムにおけるエンドツーエンドのゲインに確実に変換されないことを結論し,検索品質,システム効率,下流への影響を共同で検討する評価フレームワークについて論じる。
関連論文リスト
- Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration [14.88759517020146]
既存のRAGパイプラインは、大規模なエンティティマッチングに適用した場合、かなりの検索と生成オーバーヘッドを発生させる。
本稿では,CE-RAG4EMを導入する。CE-RAG4EMはコスト効率の高いRAGアーキテクチャで,ブロッキングベースのバッチ検索と生成による計算を削減できる。
論文 参考訳(メタデータ) (2026-02-05T14:33:00Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Rethinking Retrieval: From Traditional Retrieval Augmented Generation to Agentic and Non-Vector Reasoning Systems in the Financial Domain for Large Language Models [0.0]
本稿では,ベクトルベースエージェントRAGをハイブリッド検索とメタデータフィルタリングを用いて比較した最初の体系的評価を行う。
検索指標(MRR, Recall@5), LLM-as-a-judgeのペア比較, レイテンシ, 前処理コストを計測する。
以上の結果から,金融Q&Aシステムに先進的なRAG技術を適用することにより,検索精度,回答品質が向上し,生産における費用対効果のトレードオフが考慮されることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-22T20:06:25Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [14.494301139974455]
本稿では,オンライン関連度推定という新たな手法を提案する。
オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文 参考訳(メタデータ) (2025-04-12T22:05:50Z) - Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems [5.712288463584192]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なフレームワークとして登場した。
本研究では,財務文書の検索を効率化する,効率的なエンドツーエンドRAGパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-19T13:21:49Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。