論文の概要: PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design
- arxiv url: http://arxiv.org/abs/2403.05676v1
- Date: Fri, 8 Mar 2024 21:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:50:04.267696
- Title: PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design
- Title(参考訳): piperag: アルゴリズムシステムコデザインによる検索の高速化
- Authors: Wenqi Jiang, Shuai Zhang, Boran Han, Jie Wang, Bernie Wang, Tim Kraska
- Abstract要約: PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。
評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
- 参考スコア(独自算出の注目度): 16.76965926088238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) can enhance the generation quality of
large language models (LLMs) by incorporating external token databases.
However, retrievals from large databases can constitute a substantial portion
of the overall generation time, particularly when retrievals are periodically
performed to align the retrieved content with the latest states of generation.
In this paper, we introduce PipeRAG, a novel algorithm-system co-design
approach to reduce generation latency and enhance generation quality. PipeRAG
integrates (1) pipeline parallelism to enable concurrent retrieval and
generation processes, (2) flexible retrieval intervals to maximize the
efficiency of pipeline parallelism, and (3) a performance model to
automatically balance retrieval quality and latency based on the generation
states and underlying hardware. Our evaluation shows that, by combining the
three aforementioned methods, PipeRAG achieves up to 2.6$\times$ speedup in
end-to-end generation latency while improving generation quality. These
promising results showcase the effectiveness of co-designing algorithms with
underlying systems, paving the way for the adoption of PipeRAG in future RAG
systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部トークンデータベースを組み込むことで、大規模言語モデル(LLM)の生成品質を向上させることができる。
しかし、大規模なデータベースからの検索は、特に、検索されたコンテンツを最新の生成状態と整合させるために定期的に検索を行う場合、全体の生成時間のかなりの部分を構成することができる。
本稿では,生成レイテンシを低減し,生成品質を向上させるアルゴリズムシステムコデザイン手法であるpiperagを提案する。
PipeRAGは,(1)パイプライン並列処理を統合して同時検索および生成プロセスを実現し,(2)パイプライン並列処理の効率を最大化するフレキシブル検索間隔と,(3)生成状態と基盤ハードウェアに基づいて,検索品質と遅延を自動的にバランスさせる性能モデルを統合する。
評価の結果、上記の3つの手法を組み合わせることで、生成品質を改善しつつ、エンドツーエンド生成遅延の最大2.6$\times$スピードアップを実現した。
これらの有望な結果は、基礎となるシステムとの協調設計アルゴリズムの有効性を示し、将来のRAGシステムにおけるPipeRAGの採用の道を開いた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ChronoGAN: Supervised and Embedded Generative Adversarial Networks for Time Series Generation [0.9374652839580181]
これらの問題を効果的に解決し緩和することを目的とした堅牢なフレームワークを導入します。
このフレームワークは、Autoencoderの生成した埋め込み空間の利点と、GANの対角的トレーニングダイナミクスを統合する。
我々は、安定度を高め、短命連続と短命連続の両方で効果的な一般化を保証するために、初期生成アルゴリズムと改良されたニューラルネットワークアーキテクチャを導入する。
論文 参考訳(メタデータ) (2024-09-21T04:51:35Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - End-to-End Latency Optimization of Multi-view 3D Reconstruction for
Disaster Response [3.471012855429593]
マルチビューステレオ(MVS)ベースの3D再構成アプリケーションは、特にそのような計算に制約のある移動体エッジデバイス上で実行するのに非常に時間がかかる。
本稿では,エンド・ツー・エンドのレイテンシとリコンストラクション品質を最適にバランスさせることを目的として,レイテンシ最適化型MVSアルゴリズムパイプラインの設計を目的とする。
論文 参考訳(メタデータ) (2023-04-04T03:04:44Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Towards Generating Real-World Time Series Data [52.51620668470388]
時系列データ生成のための新しい生成フレームワーク - RTSGANを提案する。
RTSGANは、時系列インスタンスと固定次元潜在ベクトルの間のマッピングを提供するエンコーダデコーダモジュールを学習する。
不足した値の時系列を生成するために、RTSGANに観測埋め込み層と決定・生成デコーダを更に装備する。
論文 参考訳(メタデータ) (2021-11-16T11:31:37Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Hybrid Backpropagation Parallel Reservoir Networks [8.944918753413827]
本稿では,貯水池のランダムな時間的特徴と深層ニューラルネットワークの読み出し能力と,バッチ正規化を併用した新しいハイブリッドネットワークを提案する。
我々の新しいネットワークはLSTMやGRUよりも優れていることを示す。
また, HBP-ESN M-Ring と呼ばれる新しいメタリング構造を組み込むことで, 1つの大きな貯水池に類似した性能を実現し, メモリ容量の最大化を図っている。
論文 参考訳(メタデータ) (2020-10-27T21:03:35Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。