Fugu-MT 論文翻訳(概要): vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

論文の概要: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

arxiv url: http://arxiv.org/abs/2405.04437v2
Date: Fri, 12 Jul 2024 10:33:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:37:57.336849
Title: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
Title（参考訳）: vAttention: PagedAttention のない LLM 実行のための動的メモリ管理
Authors: Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar,
Abstract要約: VLLM は KV-cache の動的メモリ割り当てを可能にする PagedAttention を提案した。 PagedAttentionは、KV-cacheのレイアウトを、連続した仮想メモリから連続しない仮想メモリに変更する。動的KVキャッシュメモリ管理のための新しいアプローチであるvAttentionを提案する。
参考スコア（独自算出の注目度）: 8.20523619534105
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient management of GPU memory is essential for high throughput LLM inference. Prior systems used to reserve KV-cache memory ahead-of-time that resulted in wasted capacity due to internal fragmentation. Inspired by demand paging, vLLM proposed PagedAttention to enable dynamic memory allocation for KV-cache. This approach eliminates fragmentation and improves serving throughout. However, to be able to allocate physical memory dynamically, PagedAttention changes the layout of KV-cache from contiguous virtual memory to non-contiguous virtual memory. As a consequence, one needs to rewrite the attention kernels to support paging, and implement a memory manager in the serving framework. This results in both performance and programming overheads, as well as portability challenges in adopting state-of-the-art attention kernels. In this paper, we propose vAttention, a new approach for dynamic KV-cache memory management. In contrast to PagedAttention, vAttention stores KV-cache in contiguous virtual memory and leverages OS support for on-demand allocation of physical memory. vAttention thus enables one to use state-of-the art attention kernels out-of-the-box by adding support for dynamic allocation of physical memory without having to re-write their code. We implement vAttention in the vLLM serving stack to show that it also helps improve decode throughput by up to 1.99x over vLLM, and the end-to-end serving throughput by up to 1.22x and 1.29x, compared to using the state-of-the-art PagedAttention based kernels of FlashAttention and FlashInfer.
Abstract（参考訳）: 高スループットLLM推論には,GPUメモリの効率的な管理が不可欠である。以前のシステムではKVキャッシュのメモリを前もって保存していたため、内部の断片化が原因で容量が無駄になった。需要パージングにインスパイアされたvLLMは、KV-cacheの動的メモリ割り当てを可能にするPagedAttentionを提案した。このアプローチは断片化を排除し、全体のサービスを改善する。しかし、物理メモリを動的に割り当てるために、PagedAttentionはKV-cacheのレイアウトを連続的な仮想メモリから連続しない仮想メモリに変更した。結果として、ページングをサポートするためにアテンションカーネルを書き換え、サービスフレームワークにメモリマネージャを実装する必要がある。これにより、パフォーマンスとプログラミングのオーバーヘッドと、最先端の注目カーネルを採用する際の移植性の問題の両方が生じる。本稿では,動的KVキャッシュメモリ管理のための新しいアプローチであるvAttentionを提案する。 PagedAttentionとは対照的に、vAttentionはKV-cacheを連続した仮想メモリに格納し、物理メモリのオンデマンド割り当てにOSサポートを活用する。 vAttentionは、コードを書き換えることなく、物理メモリの動的アロケーションのサポートを追加することで、最先端の注目カーネルをすぐに使えるようにする。我々は、vLLMサービススタックにvAttentionを実装し、FlashAttentionとFlashInferの最先端のPagedAttentionベースのカーネルに比べて、最大1.99倍のデコードスループット、最大1.22倍と1.29倍のエンドツーエンドサービススループットを向上させることを実証した。

関連論文リスト

CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文参考訳（メタデータ） (2024-02-23T09:29:19Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-07-16T12:18:04Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文参考訳（メタデータ） (2021-09-23T14:36:43Z)
Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文参考訳（メタデータ） (2021-08-21T23:53:12Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。