Fugu-MT 論文翻訳(概要): vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

論文の概要: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

arxiv url: http://arxiv.org/abs/2405.04437v1
Date: Tue, 7 May 2024 16:00:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 13:31:20.796746
Title: vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
Title（参考訳）: vAttention: PagedAttention のない LLM 実行のための動的メモリ管理
Authors: Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar,
Abstract要約: vAttentionは、異なるアテンションカーネルの実装に対するシームレスな動的メモリ管理を可能にする。 vAttention は vLLM よりも最大 1.97 倍高速なトークンを生成し、処理入力は PagedAttention よりも最大 3.92 倍と 1.45 倍高速なトークンを生成する。
参考スコア（独自算出の注目度）: 8.20523619534105
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient use of GPU memory is essential for high throughput LLM inference. Prior systems reserved memory for the KV-cache ahead-of-time, resulting in wasted capacity due to internal fragmentation. Inspired by OS-based virtual memory systems, vLLM proposed PagedAttention to enable dynamic memory allocation for KV-cache. This approach eliminates fragmentation, enabling high-throughput LLM serving with larger batch sizes. However, to be able to allocate physical memory dynamically, PagedAttention changes the layout of KV-cache from contiguous virtual memory to non-contiguous virtual memory. This change requires attention kernels to be rewritten to support paging, and serving framework to implement a memory manager. Thus, the PagedAttention model leads to software complexity, portability issues, redundancy and inefficiency. In this paper, we propose vAttention for dynamic KV-cache memory management. In contrast to PagedAttention, vAttention retains KV-cache in contiguous virtual memory and leverages low-level system support for demand paging, that already exists, to enable on-demand physical memory allocation. Thus, vAttention unburdens the attention kernel developer from having to explicitly support paging and avoids re-implementation of memory management in the serving framework. We show that vAttention enables seamless dynamic memory management for unchanged implementations of various attention kernels. vAttention also generates tokens up to 1.97x faster than vLLM, while processing input prompts up to 3.92x and 1.45x faster than the PagedAttention variants of FlashAttention and FlashInfer.
Abstract（参考訳）: 高スループットLLM推論にはGPUメモリの効率的な利用が不可欠である。以前のシステムでは、KVキャッシュの事前メモリを予約していたため、内部のフラグメンテーションが原因で容量が無駄になった。 OSベースの仮想メモリシステムにインスパイアされたvLLMは、KV-cacheの動的メモリ割り当てを可能にするPagedAttentionを提案した。このアプローチは断片化を排除し、より大きなバッチサイズで高スループットのLLMを実現する。しかし、物理メモリを動的に割り当てるために、PagedAttentionはKV-cacheのレイアウトを連続的な仮想メモリから連続しない仮想メモリに変更した。この変更では、ページングをサポートするためにアテンションカーネルを書き直す必要があり、メモリマネージャを実装するためのフレームワークを提供する必要がある。このように、PagedAttentionモデルは、ソフトウェアの複雑さ、移植性の問題、冗長性、非効率性につながる。本稿では,動的KVキャッシュメモリ管理のためのvAttentionを提案する。 PagedAttentionとは対照的に、vAttentionはKV-cacheを連続した仮想メモリに保持し、オンデマンドの物理メモリ割り当てを可能にするために、すでに存在するオンデマンドページングに低レベルのシステムサポートを活用する。したがって、vAttentionは、注目カーネル開発者に対して、ページングを明示的にサポートする必要をなくし、サービスフレームワークにおけるメモリ管理の再実装を避ける。本稿では,vAttentionにより,異なるアテンションカーネルの実装に対して,シームレスな動的メモリ管理が可能であることを示す。 vAttentionはまた、vLLMよりも最大1.97倍高速なトークンを生成し、処理入力は、FlashAttentionとFlashInferのPagedAttentionの変種よりも最大3.92倍と1.45倍高速である。

関連論文リスト

MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。 MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。 VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文参考訳（メタデータ） (2025-12-04T12:56:30Z)
LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。 GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文参考訳（メタデータ） (2025-10-21T17:58:17Z)
Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文参考訳（メタデータ） (2025-08-17T19:07:08Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文参考訳（メタデータ） (2024-02-23T09:29:19Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-07-16T12:18:04Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文参考訳（メタデータ） (2021-09-23T14:36:43Z)
Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文参考訳（メタデータ） (2021-08-21T23:53:12Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。