論文の概要: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2404.12457v1
- Date: Thu, 18 Apr 2024 18:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:04:06.761694
- Title: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation
- Title(参考訳): RAGCache: 検索拡張ジェネレーションのための効率的な知識キャッシュ
- Authors: Chao Jin, Zili Zhang, Xuanlin Jiang, Fangyue Liu, Xin Liu, Xuanzhe Liu, Xin Jin,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。
RAGは長いシーケンス生成を導入し、高い計算とメモリコストをもたらす。
本稿では,RAGに適したマルチレベル動的キャッシュシステムであるThothを提案する。
- 参考スコア(独自算出の注目度): 11.321659218769598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has shown significant improvements in various natural language processing tasks by integrating the strengths of large language models (LLMs) and external knowledge databases. However, RAG introduces long sequence generation and leads to high computation and memory costs. We propose Thoth, a novel multilevel dynamic caching system tailored for RAG. Our analysis benchmarks current RAG systems, pinpointing the performance bottleneck (i.e., long sequence due to knowledge injection) and optimization opportunities (i.e., caching knowledge's intermediate states). Based on these insights, we design Thoth, which organizes the intermediate states of retrieved knowledge in a knowledge tree and caches them in the GPU and host memory hierarchy. Thoth proposes a replacement policy that is aware of LLM inference characteristics and RAG retrieval patterns. It also dynamically overlaps the retrieval and inference steps to minimize the end-to-end latency. We implement Thoth and evaluate it on vLLM, a state-of-the-art LLM inference system and Faiss, a state-of-the-art vector database. The experimental results show that Thoth reduces the time to first token (TTFT) by up to 4x and improves the throughput by up to 2.1x compared to vLLM integrated with Faiss.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)と外部知識データベースの強みを統合することで、様々な自然言語処理タスクにおいて大幅に改善されている。
しかし、RAGは長いシーケンス生成を導入し、高い計算とメモリコストをもたらす。
本稿では,RAGに適したマルチレベル動的キャッシュシステムであるThothを提案する。
我々の分析は、現在のRAGシステムのベンチマークを行い、性能ボトルネック(知識注入による長いシーケンス)と最適化機会(知識の中間状態のキャッシュ)を指摘します。
これらの知見に基づいて、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュするThothを設計する。
Thoth氏は、LLM推論特性とRAG検索パターンを認識した代替ポリシーを提案する。
また、検索と推論のステップを動的にオーバーラップして、エンドツーエンドのレイテンシを最小限にする。
我々はThothを実装して、最先端のLLM推論システムであるvLLMと、最先端のベクトルデータベースであるFaissで評価する。
実験の結果、ThothはFaisと統合されたvLLMと比較して、最初のトークン(TTFT)までの時間を最大4倍に削減し、スループットを最大2.1倍改善した。
関連論文リスト
- Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Fine Tuning vs. Retrieval Augmented Generation for Less Popular
Knowledge [17.48107304359591]
低頻度トピックにおけるLLMの性能を高めるための2つのアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。
以上の結果から,FTは,最も人気の高いグループ,特に最も人気の高いグループにおいて,パフォーマンスを著しく向上させる一方,RAGは他の手法を超越していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-03T08:07:55Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - HistAlign: Improving Context Dependency in Language Generation by
Aligning with History [96.35214682008701]
言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増大させるキャッシュ-LMは、コンテキスト依存性を増大させる可能性がある。
HistAlignはキャッシュの整合性を確保するための新しいトレーニング手法だ。
論文 参考訳(メタデータ) (2023-05-08T15:34:56Z) - Optimizing L1 cache for embedded systems through grammatical evolution [1.9371782627708491]
文法的進化(GE)は、与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる。
提案手法では,実世界のベースライン構成に対して平均62%の効率向上が得られるキャッシュ構成を見つけることができる。
論文 参考訳(メタデータ) (2023-03-06T18:10:00Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。