論文の概要: RAGPulse: An Open-Source RAG Workload Trace to Optimize RAG Serving Systems
- arxiv url: http://arxiv.org/abs/2511.12979v1
- Date: Mon, 17 Nov 2025 05:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.668803
- Title: RAGPulse: An Open-Source RAG Workload Trace to Optimize RAG Serving Systems
- Title(参考訳): RAGPulse: RAGサービングシステムの最適化を目的としたオープンソースのRAGワークロードトレース
- Authors: Zhengchao Wang, Yitao Hu, Jianing Ye, Zhuxuan Chang, Jiazheng Yu, Youpeng Deng, Keqiu Li,
- Abstract要約: 本稿では,オープンソースのRAGワークロードトレースデータセットであるRAGPulseを紹介する。
このデータセットは2024年4月以降に4万人以上の学生と学部に提供される大学全体のQ&Aシステムから収集された。
分析の結果,実世界のRAGワークロードは,時間的および高度に歪んだホットドキュメントアクセスパターンを示すことがわかった。
- 参考スコア(独自算出の注目度): 10.189392948536446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a critical paradigm for building reliable, knowledge-intensive Large Language Model (LLM) applications. However, the multi-stage pipeline (retrieve, generate) and unique workload characteristics (e.g., knowledge dependency) of RAG systems pose significant challenges for serving performance optimization. Existing generic LLM inference traces fail to capture these RAG-specific dynamics, creating a significant performance gap between academic research and real-world deployment. To bridge this gap, this paper introduces RAGPulse, an open-source RAG workload trace dataset. This dataset was collected from an university-wide Q&A system serving that has served more than 40,000 students and faculties since April 2024. We detail RAGPulse's system architecture, its privacy-preserving hash-based data format, and provide an in-depth statistical analysis. Our analysis reveals that real-world RAG workloads exhibit significant temporal locality and a highly skewed hot document access pattern. RAGPulse provides a high-fidelity foundation for researchers to develop and validate novel optimization strategies for RAG systems, such as content-aware batching and retrieval caching, ultimately enhancing the efficiency and reliability of RAG services. The code is available at https://github.com/flashserve/RAGPulse.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、信頼性の高い知識集約型大規模言語モデル(LLM)アプリケーションを構築するための重要なパラダイムである。
しかしながら、RAGシステムのマルチステージパイプライン(検索、生成)とユニークなワークロード特性(例えば、知識依存)は、パフォーマンスの最適化に重大な課題をもたらす。
既存のジェネリックLLM推論トレースは、RAG固有のダイナミクスを捉えることができず、学術研究と現実世界のデプロイメントの間に大きなパフォーマンスギャップを生じさせる。
このギャップを埋めるために、オープンソースのRAGワークロードトレースデータセットであるRAGPulseを紹介する。
このデータセットは、2024年4月から4万人以上の学生と学部にサービスを提供している大学全体のQ&Aシステムから収集された。
RAGPulseのシステムアーキテクチャ,プライバシ保護型ハッシュベースのデータフォーマットについて詳述し,詳細な統計解析を行う。
分析の結果,実世界のRAGワークロードは時間的局所性が大きく,ホットドキュメントアクセスパターンも極めて高いことがわかった。
RAGPulseは、コンテンツ対応バッチ処理や検索キャッシュといったRAGシステムの新しい最適化戦略を開発し、検証するための高忠実な基盤を提供し、最終的にRAGサービスの効率性と信頼性を高める。
コードはhttps://github.com/flashserve/RAGPulse.comで公開されている。
関連論文リスト
- RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。
我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文 参考訳(メタデータ) (2025-07-26T20:57:24Z) - RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving [9.962031642362813]
Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。
RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。
RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
論文 参考訳(メタデータ) (2025-03-18T18:58:13Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.377398103067508]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T15:16:24Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。