論文の概要: Efficient Memory Management for Large Language Model Serving with
PagedAttention
- arxiv url: http://arxiv.org/abs/2309.06180v1
- Date: Tue, 12 Sep 2023 12:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-13 13:13:59.657051
- Title: Efficient Memory Management for Large Language Model Serving with
PagedAttention
- Title(参考訳): PagedAttention を用いた大規模言語モデルの効率的なメモリ管理
- Authors: Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng,
Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica
- Abstract要約: 大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
- 参考スコア(独自算出の注目度): 44.70922552274376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High throughput serving of large language models (LLMs) requires batching
sufficiently many requests at a time. However, existing systems struggle
because the key-value cache (KV cache) memory for each request is huge and
grows and shrinks dynamically. When managed inefficiently, this memory can be
significantly wasted by fragmentation and redundant duplication, limiting the
batch size. To address this problem, we propose PagedAttention, an attention
algorithm inspired by the classical virtual memory and paging techniques in
operating systems. On top of it, we build vLLM, an LLM serving system that
achieves (1) near-zero waste in KV cache memory and (2) flexible sharing of KV
cache within and across requests to further reduce memory usage. Our
evaluations show that vLLM improves the throughput of popular LLMs by
2-4$\times$ with the same level of latency compared to the state-of-the-art
systems, such as FasterTransformer and Orca. The improvement is more pronounced
with longer sequences, larger models, and more complex decoding algorithms.
vLLM's source code is publicly available at
https://github.com/vllm-project/vllm
- Abstract(参考訳): 大きな言語モデル(LLM)の高スループットサービスには、一度に十分な数のリクエストをバッチする必要がある。
しかし,各要求に対するキーバリューキャッシュ(KVキャッシュ)メモリは巨大で,動的に増大・縮小するため,既存のシステムでは困難である。
非効率に管理されると、このメモリは断片化と冗長な重複によって著しく無駄になり、バッチサイズが制限される。
そこで本研究では,古典的仮想記憶とオペレーティングシステムのパージング技術に触発された注意アルゴリズムpagedattentionを提案する。
さらに,(1)KVキャッシュメモリのほぼゼロの無駄を解消し,(2)KVキャッシュの要求内および要求間のフレキシブルな共有を実現し,メモリ使用量をさらに削減するLLMサービスシステムであるvLLMを構築した。
評価の結果、vllmは、fasttransformerやorcaのような最先端システムと同等のレイテンシで、人気のあるllmのスループットを2-4$\times$向上させることがわかった。
改良はより長いシーケンス、より大きなモデル、より複雑な復号アルゴリズムでより顕著である。
vLLMのソースコードはhttps://github.com/vllm-project/vllmで公開されている。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs [5.02504911036896]
最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。
本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。
また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
論文 参考訳(メタデータ) (2025-04-16T04:59:18Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management [0.5899781520375794]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れたパフォーマンスを示す。
長いコンテンツを生成するための推論を提供することは、過渡状態の巨大なメモリフットプリントのために課題となる。
InfiniGenは、長文生成に適した新しいKVキャッシュ管理フレームワークである。
論文 参考訳(メタデータ) (2024-06-28T07:41:26Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。