論文の概要: RAG-Stack: Co-Optimizing RAG Quality and Performance From the Vector Database Perspective
- arxiv url: http://arxiv.org/abs/2510.20296v1
- Date: Thu, 23 Oct 2025 07:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.527771
- Title: RAG-Stack: Co-Optimizing RAG Quality and Performance From the Vector Database Perspective
- Title(参考訳): RAG-Stack: ベクトルデータベースから見たRAGの品質とパフォーマンスの最適化
- Authors: Wenqi Jiang,
- Abstract要約: Retrieval-augmented Generation (RAG) は、ベクトルデータベースの最も顕著な応用の1つである。
RAGシステムにおける品質-性能共最適化のための3ピラーブループリントであるRAG-Stackを提案する。
- 参考スコア(独自算出の注目度): 3.385836913732549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) has emerged as one of the most prominent applications of vector databases. By integrating documents retrieved from a database into the prompt of a large language model (LLM), RAG enables more reliable and informative content generation. While there has been extensive research on vector databases, many open research problems remain once they are considered in the wider context of end-to-end RAG pipelines. One practical yet challenging problem is how to jointly optimize both system performance and generation quality in RAG, which is significantly more complex than it appears due to the numerous knobs on both the algorithmic side (spanning models and databases) and the systems side (from software to hardware). In this paper, we present RAG-Stack, a three-pillar blueprint for quality-performance co-optimization in RAG systems. RAG-Stack comprises: (1) RAG-IR, an intermediate representation that serves as an abstraction layer to decouple quality and performance aspects; (2) RAG-CM, a cost model for estimating system performance given an RAG-IR; and (3) RAG-PE, a plan exploration algorithm that searches for high-quality, high-performance RAG configurations. We believe this three-pillar blueprint will become the de facto paradigm for RAG quality-performance co-optimization in the years to come.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、ベクトルデータベースの最も顕著な応用の1つである。
データベースから取得した文書を大言語モデル(LLM)のプロンプトに統合することにより、RAGはより信頼性が高く情報的なコンテンツ生成を可能にする。
ベクトルデータベースの研究は盛んに行われているが、エンド・ツー・エンドのRAGパイプラインのより広い文脈で考えると、多くのオープンな研究問題が残っている。
RAGのシステム性能と生成品質は、アルゴリズム側(スパンニングモデルとデータベース)とシステム側(ソフトウェアからハードウェアまで)の多くのノブにより、明らかに複雑である。
本稿では,RAGシステムにおける品質-性能共最適化のための3ピラーブループリントであるRAG-Stackを提案する。
RAG-Stackは,(1)品質と性能の両面を分離する抽象層として機能する中間表現であるRAG-IR,(2)RAG-IRを与えられたシステム性能を推定するコストモデルであるRAG-CM,(3)高品質で高性能なRAG構成を探索する計画探索アルゴリズムであるRAG-PEから構成される。
この3ピラーの青写真は、今後数年でRAGの品質とパフォーマンスの共最適化のデファクトパラダイムになると考えています。
関連論文リスト
- RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving [9.962031642362813]
Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。
RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。
RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
論文 参考訳(メタデータ) (2025-03-18T18:58:13Z) - HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks [102.72071523999169]
HawkBenchは、RAGのパフォーマンスを厳格に評価するために設計された、人間ラベル付きマルチドメインベンチマークである。
情報探索行動に基づくタスクの階層化により、HawkBenchはRAGシステムが多様なユーザニーズにどのように適応するかを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T06:33:39Z) - RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.377398103067508]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T15:16:24Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。