論文の概要: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
- arxiv url: http://arxiv.org/abs/2405.04437v2
- Date: Fri, 12 Jul 2024 10:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:37:57.336849
- Title: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
- Title(参考訳): vAttention: PagedAttention のない LLM 実行のための動的メモリ管理
- Authors: Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar,
- Abstract要約: VLLM は KV-cache の動的メモリ割り当てを可能にする PagedAttention を提案した。
PagedAttentionは、KV-cacheのレイアウトを、連続した仮想メモリから連続しない仮想メモリに変更する。
動的KVキャッシュメモリ管理のための新しいアプローチであるvAttentionを提案する。
- 参考スコア(独自算出の注目度): 8.20523619534105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient management of GPU memory is essential for high throughput LLM inference. Prior systems used to reserve KV-cache memory ahead-of-time that resulted in wasted capacity due to internal fragmentation. Inspired by demand paging, vLLM proposed PagedAttention to enable dynamic memory allocation for KV-cache. This approach eliminates fragmentation and improves serving throughout. However, to be able to allocate physical memory dynamically, PagedAttention changes the layout of KV-cache from contiguous virtual memory to non-contiguous virtual memory. As a consequence, one needs to rewrite the attention kernels to support paging, and implement a memory manager in the serving framework. This results in both performance and programming overheads, as well as portability challenges in adopting state-of-the-art attention kernels. In this paper, we propose vAttention, a new approach for dynamic KV-cache memory management. In contrast to PagedAttention, vAttention stores KV-cache in contiguous virtual memory and leverages OS support for on-demand allocation of physical memory. vAttention thus enables one to use state-of-the art attention kernels out-of-the-box by adding support for dynamic allocation of physical memory without having to re-write their code. We implement vAttention in the vLLM serving stack to show that it also helps improve decode throughput by up to 1.99x over vLLM, and the end-to-end serving throughput by up to 1.22x and 1.29x, compared to using the state-of-the-art PagedAttention based kernels of FlashAttention and FlashInfer.
- Abstract(参考訳): 高スループットLLM推論には,GPUメモリの効率的な管理が不可欠である。
以前のシステムではKVキャッシュのメモリを前もって保存していたため、内部の断片化が原因で容量が無駄になった。
需要パージングにインスパイアされたvLLMは、KV-cacheの動的メモリ割り当てを可能にするPagedAttentionを提案した。
このアプローチは断片化を排除し、全体のサービスを改善する。
しかし、物理メモリを動的に割り当てるために、PagedAttentionはKV-cacheのレイアウトを連続的な仮想メモリから連続しない仮想メモリに変更した。
結果として、ページングをサポートするためにアテンションカーネルを書き換え、サービスフレームワークにメモリマネージャを実装する必要がある。
これにより、パフォーマンスとプログラミングのオーバーヘッドと、最先端の注目カーネルを採用する際の移植性の問題の両方が生じる。
本稿では,動的KVキャッシュメモリ管理のための新しいアプローチであるvAttentionを提案する。
PagedAttentionとは対照的に、vAttentionはKV-cacheを連続した仮想メモリに格納し、物理メモリのオンデマンド割り当てにOSサポートを活用する。
vAttentionは、コードを書き換えることなく、物理メモリの動的アロケーションのサポートを追加することで、最先端の注目カーネルをすぐに使えるようにする。
我々は、vLLMサービススタックにvAttentionを実装し、FlashAttentionとFlashInferの最先端のPagedAttentionベースのカーネルに比べて、最大1.99倍のデコードスループット、最大1.22倍と1.29倍のエンドツーエンドサービススループットを向上させることを実証した。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。
まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。
階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-23T14:36:43Z) - Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文 参考訳(メタデータ) (2021-08-21T23:53:12Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Neural Storage: A New Paradigm of Elastic Memory [4.307341575886927]
コンピュータメモリ内のデータの保存と検索は、システム性能において大きな役割を果たす。
我々は、脳にインスパイアされた学習記憶パラダイムであるNeural Storage(NS)を導入し、メモリをフレキシブルなニューラルメモリネットワークとして構成する。
NSは2つの代表アプリケーションに対してメモリアクセス性能を大幅に改善する。
論文 参考訳(メタデータ) (2021-01-07T19:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。