論文の概要: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2404.12457v2
- Date: Thu, 25 Apr 2024 06:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:19:09.527219
- Title: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation
- Title(参考訳): RAGCache: 検索拡張ジェネレーションのための効率的な知識キャッシュ
- Authors: Chao Jin, Zili Zhang, Xuanlin Jiang, Fangyue Liu, Xin Liu, Xuanzhe Liu, Xin Jin,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。
RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。
RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
- 参考スコア(独自算出の注目度): 11.321659218769598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has shown significant improvements in various natural language processing tasks by integrating the strengths of large language models (LLMs) and external knowledge databases. However, RAG introduces long sequence generation and leads to high computation and memory costs. We propose RAGCache, a novel multilevel dynamic caching system tailored for RAG. Our analysis benchmarks current RAG systems, pinpointing the performance bottleneck (i.e., long sequence due to knowledge injection) and optimization opportunities (i.e., caching knowledge's intermediate states). Based on these insights, we design RAGCache, which organizes the intermediate states of retrieved knowledge in a knowledge tree and caches them in the GPU and host memory hierarchy. RAGCache proposes a replacement policy that is aware of LLM inference characteristics and RAG retrieval patterns. It also dynamically overlaps the retrieval and inference steps to minimize the end-to-end latency. We implement RAGCache and evaluate it on vLLM, a state-of-the-art LLM inference system and Faiss, a state-of-the-art vector database. The experimental results show that RAGCache reduces the time to first token (TTFT) by up to 4x and improves the throughput by up to 2.1x compared to vLLM integrated with Faiss.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)と外部知識データベースの強みを統合することで、様々な自然言語処理タスクにおいて大幅に改善されている。
しかし、RAGは長いシーケンス生成を導入し、高い計算とメモリコストをもたらす。
本稿では,RAGに適した新しいマルチレベル動的キャッシュシステムであるRAGCacheを提案する。
我々の分析は、現在のRAGシステムのベンチマークを行い、性能ボトルネック(知識注入による長いシーケンス)と最適化機会(知識の中間状態のキャッシュ)を指摘します。
これらの知見に基づいて、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュするRAGCacheを設計する。
RAGCacheはLLM推論特性とRAG検索パターンを意識した代替ポリシーを提案する。
また、検索と推論のステップを動的にオーバーラップして、エンドツーエンドのレイテンシを最小限にする。
我々は、RAGCacheを実装し、最先端のLLM推論システムであるvLLMと、最先端のベクトルデータベースであるFaissで評価する。
実験結果から、RAGCacheは、Faisと統合されたvLLMと比較して、最初のトークン(TTFT)までの時間を最大4倍に削減し、スループットを最大2.1倍改善することが示された。
関連論文リスト
- Fine Tuning vs. Retrieval Augmented Generation for Less Popular
Knowledge [17.48107304359591]
低頻度トピックにおけるLLMの性能を高めるための2つのアプローチは、検索型拡張生成(RAG)と合成データに対する微調整(FT)である。
以上の結果から,FTは,最も人気の高いグループ,特に最も人気の高いグループにおいて,パフォーマンスを著しく向上させる一方,RAGは他の手法を超越していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-03T08:07:55Z) - Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Continual Learning with Dynamic Sparse Training: Exploring Algorithms
for Effective Model Updates [13.983410740333788]
連続学習(英: Continual Learning, CL)とは、知的なシステムが、可能な限り計算オーバーヘッドの少ないデータストリームから、逐次的に知識を取得し、保持する能力である。
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。
本論文は,CLパラダイムの下で異なるDST成分の効果を検証した最初の実証的研究である。
論文 参考訳(メタデータ) (2023-08-28T18:31:09Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Lifelong Generative Modelling Using Dynamic Expansion Graph Model [15.350366047108103]
共同GR法とENA法を用いて,VAEの忘れ行動について検討した。
動的拡張グラフモデル(DEGM)を提案する。
論文 参考訳(メタデータ) (2021-12-15T17:35:27Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。