論文の概要: RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving
- arxiv url: http://arxiv.org/abs/2503.14649v1
- Date: Tue, 18 Mar 2025 18:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:04.417227
- Title: RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving
- Title(参考訳): RAGO:Retrieval-Augmented Generation Servingのシステム的パフォーマンス最適化
- Authors: Wenqi Jiang, Suvinay Subramanian, Cat Graves, Gustavo Alonso, Amir Yazdanbakhsh, Vidushi Dadu,
- Abstract要約: Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。
RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。
RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
- 参考スコア(独自算出の注目度): 9.962031642362813
- License:
- Abstract: Retrieval-augmented generation (RAG), which combines large language models (LLMs) with retrievals from external knowledge databases, is emerging as a popular approach for reliable LLM serving. However, efficient RAG serving remains an open challenge due to the rapid emergence of many RAG variants and the substantial differences in workload characteristics across them. In this paper, we make three fundamental contributions to advancing RAG serving. First, we introduce RAGSchema, a structured abstraction that captures the wide range of RAG algorithms, serving as a foundation for performance optimization. Second, we analyze several representative RAG workloads with distinct RAGSchema, revealing significant performance variability across these workloads. Third, to address this variability and meet diverse performance requirements, we propose RAGO (Retrieval-Augmented Generation Optimizer), a system optimization framework for efficient RAG serving. Our evaluation shows that RAGO achieves up to a 2x increase in QPS per chip and a 55% reduction in time-to-first-token latency compared to RAG systems built on LLM-system extensions.
- Abstract(参考訳): 大規模言語モデル(LLM)と外部知識データベースからの検索を組み合わせた検索言語拡張世代(RAG)が,信頼性の高いLLMサービスのための一般的なアプローチとして登場している。
しかしながら、多くのRAG変種が急速に出現し、それら間でのワークロード特性が著しく異なるため、効率的なRAG提供は依然としてオープンな課題である。
本稿では,RAG提供の促進に3つの基本的貢献を行う。
まず,様々なRAGアルゴリズムを抽出する構造化抽象化であるRAGSchemaを導入し,性能最適化の基礎となる。
次に、異なるRAGSchemaで複数の代表的RAGワークロードを分析し、これらのワークロード間での大幅なパフォーマンスの変動を明らかにします。
第三に、この変動に対処し、多様な性能要件を満たすために、効率的なRAG提供のためのシステム最適化フレームワークであるRAGO(Retrieval-Augmented Generation Optimizer)を提案する。
LLMシステム拡張上に構築されたRAGシステムと比較して、RAGOはチップ当たりのQPSが最大で2倍増加し、タイム・ツー・ファーストのレイテンシが55%減少することを示す。
関連論文リスト
- RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。
また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - RAG-Instruct: Boosting LLMs with Diverse Retrieval-Augmented Instructions [25.952471869592443]
RAG-Instructは、任意のソースコーパスに基づいて、多種多様な高品質なRAG命令データを合成する一般的な方法である。
我々はウィキペディアから40Kの命令データセットを構築し、多様なRAGシナリオとタスクを包括的にカバーする。
実験により、RAG-InstructはLLMのRAG能力を効果的に向上し、強力なゼロショット性能を実現することが示された。
論文 参考訳(メタデータ) (2024-12-31T09:00:51Z) - RAGServe: Fast Quality-Aware RAG Systems with Configuration Adaptation [9.50826652108988]
RAG (Retrieval Augmented Generation) は、大規模な言語モデルが外部知識でより良い応答を生成することを可能にする。
本稿では、クエリを協調的にスケジュールし、各クエリのキーRAG構成を適応する最初のRAGシステムであるRAGServeについて述べる。
論文 参考訳(メタデータ) (2024-12-13T20:39:30Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.377398103067508]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T15:16:24Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。