論文の概要: RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving
- arxiv url: http://arxiv.org/abs/2503.14649v2
- Date: Fri, 21 Mar 2025 17:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 13:34:24.075312
- Title: RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving
- Title(参考訳): RAGO:Retrieval-Augmented Generation Servingのシステム的パフォーマンス最適化
- Authors: Wenqi Jiang, Suvinay Subramanian, Cat Graves, Gustavo Alonso, Amir Yazdanbakhsh, Vidushi Dadu,
- Abstract要約: Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。
RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。
RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
- 参考スコア(独自算出の注目度): 9.962031642362813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG), which combines large language models (LLMs) with retrievals from external knowledge databases, is emerging as a popular approach for reliable LLM serving. However, efficient RAG serving remains an open challenge due to the rapid emergence of many RAG variants and the substantial differences in workload characteristics across them. In this paper, we make three fundamental contributions to advancing RAG serving. First, we introduce RAGSchema, a structured abstraction that captures the wide range of RAG algorithms, serving as a foundation for performance optimization. Second, we analyze several representative RAG workloads with distinct RAGSchema, revealing significant performance variability across these workloads. Third, to address this variability and meet diverse performance requirements, we propose RAGO (Retrieval-Augmented Generation Optimizer), a system optimization framework for efficient RAG serving. Our evaluation shows that RAGO achieves up to a 2x increase in QPS per chip and a 55% reduction in time-to-first-token latency compared to RAG systems built on LLM-system extensions.
- Abstract(参考訳): 大規模言語モデル(LLM)と外部知識データベースからの検索を組み合わせた検索言語拡張世代(RAG)が,信頼性の高いLLMサービスのための一般的なアプローチとして登場している。
しかしながら、多くのRAG変種が急速に出現し、それら間でのワークロード特性が著しく異なるため、効率的なRAG提供は依然としてオープンな課題である。
本稿では,RAG提供の促進に3つの基本的貢献を行う。
まず,様々なRAGアルゴリズムを抽出する構造化抽象化であるRAGSchemaを導入し,性能最適化の基礎となる。
次に、異なるRAGSchemaで複数の代表的RAGワークロードを分析し、これらのワークロード間での大幅なパフォーマンスの変動を明らかにします。
第三に、この変動に対処し、多様な性能要件を満たすために、効率的なRAG提供のためのシステム最適化フレームワークであるRAGO(Retrieval-Augmented Generation Optimizer)を提案する。
LLMシステム拡張上に構築されたRAGシステムと比較して、RAGOはチップ当たりのQPSが最大で2倍増加し、タイム・ツー・ファーストのレイテンシが55%減少することを示す。
関連論文リスト
- OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning [13.181087031343619]
本稿では,レトリバーを調整してコンテキスト内の関連性を捉えることで,エンドツーエンドに最適化されたRAGフレームワークであるOpenRAGを紹介する。
幅広いタスクにわたる実験により、OpenRAGは、レトリバーをエンドツーエンドにチューニングすることで、元のレトリバーよりも4.0%の一貫した改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-03-11T13:04:05Z) - RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。
また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAGServe: Fast Quality-Aware RAG Systems with Configuration Adaptation [9.50826652108988]
RAG (Retrieval Augmented Generation) は、大規模な言語モデルが外部知識でより良い応答を生成することを可能にする。
本稿では、クエリを協調的にスケジュールし、各クエリのキーRAG構成を適応する最初のRAGシステムであるRAGServeについて述べる。
論文 参考訳(メタデータ) (2024-12-13T20:39:30Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations [24.142649256624082]
本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
第2の方法は,BM25検索とBGE-Rerankerのリグレードから成り,どのモデルも微調整する必要がなく,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後のものは効率的な推論であり、我々は粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
論文 参考訳(メタデータ) (2024-10-14T09:17:43Z) - RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.377398103067508]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T15:16:24Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。