論文の概要: RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2603.10765v1
- Date: Wed, 11 Mar 2026 13:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.968879
- Title: RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems
- Title(参考訳): RAGPerf:Retrieval-Augmented Generation Systemsのためのエンドツーエンドベンチマークフレームワーク
- Authors: Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang,
- Abstract要約: 本稿では,RAGパイプラインのシステム動作を特徴付けるフレームワークであるRAGPerfを提案する。
RAGPerfは、RAGワークフローを、埋め込み、インデックス付け、検索、再ランク付け、生成という、いくつかのモジュラーコンポーネントに分離する。
- 参考スコア(独自算出の注目度): 12.746258032881238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the design and implementation of a RAG-based AI system benchmarking (RAGPerf) framework for characterizing the system behaviors of RAG pipelines. To facilitate detailed profiling and fine-grained performance analysis, RAGPerf decouples the RAG workflow into several modular components - embedding, indexing, retrieval, reranking, and generation. RAGPerf offers the flexibility for users to configure the core parameters of each component and examine their impact on the end-to-end query performance and quality. RAGPerf has a workload generator to model real-world scenarios by supporting diverse datasets (e.g., text, pdf, code, and audio), different retrieval and update ratios, and query distributions. RAGPerf also supports different embedding models, major vector databases such as LanceDB, Milvus, Qdrant, Chroma, and Elasticsearch, as well as different LLMs for content generation. It automates the collection of performance metrics (i.e., end-to-end query throughput, host/GPU memory footprint, and CPU/GPU utilization) and accuracy metrics (i.e., context recall, query accuracy, and factual consistency). We demonstrate the capabilities of RAGPerf through a comprehensive set of experiments and open source its codebase at GitHub. Our evaluation shows that RAGPerf incurs negligible performance overhead.
- Abstract(参考訳): 本稿では,RAGパイプラインのシステム動作を特徴付けるためのRAGPerf(RAGPerf)フレームワークの設計と実装について述べる。
詳細なプロファイリングと詳細なパフォーマンス分析を容易にするため、RAGPerfはRAGワークフローをいくつかのモジュールコンポーネント(埋め込み、インデックス付け、検索、リグレード、生成)に分離する。
RAGPerfは、各コンポーネントのコアパラメータを設定し、エンドツーエンドのクエリパフォーマンスと品質への影響を調べる柔軟性を提供する。
RAGPerfには、さまざまなデータセット(テキスト、pdf、コード、オーディオなど)、さまざまな検索と更新比率、クエリ分散をサポートすることで、現実世界のシナリオをモデル化するワークロードジェネレータがある。
RAGPerfは、異なる埋め込みモデル、LanceDB、Milvus、Qdrant、Chroma、Elasticsearchのような主要なベクトルデータベース、およびコンテンツ生成のための異なるLLMをサポートする。
パフォーマンスメトリクス(エンドツーエンドのクエリスループット、ホスト/GPUメモリフットプリント、CPU/GPU利用)と精度メトリクス(コンテキストリコール、クエリ精度、事実整合性)の収集を自動化する。
我々は、総合的な実験を通じてRAGPerfの能力を実証し、そのコードベースをGitHubでオープンソース化した。
我々の評価では、RAGPerfは無視できる性能のオーバーヘッドを発生させる。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - RAGPulse: An Open-Source RAG Workload Trace to Optimize RAG Serving Systems [10.189392948536446]
本稿では,オープンソースのRAGワークロードトレースデータセットであるRAGPulseを紹介する。
このデータセットは2024年4月以降に4万人以上の学生と学部に提供される大学全体のQ&Aシステムから収集された。
分析の結果,実世界のRAGワークロードは,時間的および高度に歪んだホットドキュメントアクセスパターンを示すことがわかった。
論文 参考訳(メタデータ) (2025-11-17T05:06:47Z) - Multi-Agent GraphRAG: A Text-to-Cypher Framework for Labeled Property Graphs [7.943264761730892]
Multi-Agent GraphRAGはLPGベースのグラフデータに対する自然言語インタフェースとして機能する。
繰り返しコンテンツ認識の修正と正規化は、集約されたフィードバックループによって強化され、生成されたクエリのセマンティックおよび構文的改善の両方を保証する。
このことは、このようなアプローチがAIを大規模に現実世界のアプリケーションにブリッジする方法を強調し、産業用デジタル自動化のユースケースを可能にしている。
論文 参考訳(メタデータ) (2025-11-11T14:04:00Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain [2.8514947506989707]
Large Language Models (LLM) と Retrieval Augmented Generation (RAG) アプローチは、トランスフォーメーションソリューションを提供する。
本稿では,ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。
風力エネルギー領域の第一級ベンチマークであるWeQAを導入することで、この枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-21T17:43:11Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。