論文の概要: Paged Attention Meets FlexAttention: Unlocking Long-Context Efficiency in Deployed Inference
- arxiv url: http://arxiv.org/abs/2506.07311v1
- Date: Sun, 08 Jun 2025 22:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.102472
- Title: Paged Attention Meets FlexAttention: Unlocking Long-Context Efficiency in Deployed Inference
- Title(参考訳): Paged AttentionがFlexAttentionと出会い、デプロイされた推論における長期的効率を解き放つ
- Authors: Thomas Joshi, Herman Saini, Neil Dhillon, Antoni Viros i Martin, Kaoutar El Maghraoui,
- Abstract要約: 我々はPyTorchのFlexAttentionとPagedAttentionの新たな統合を紹介します。
NVIDIA L4 GPUのベンチマークでは、推論遅延が大幅に削減された。
実装全体をオープンソースとして公開し、将来の長期コンテキストモデル展開におけるその意義について論じます。
- 参考スコア(独自算出の注目度): 1.0175051111288864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) encounter severe memory inefficiencies during long-context inference due to conventional handling of key-value (KV) caches. In this work, we introduce a novel integration of PagedAttention with PyTorch's FlexAttention, addressing internal fragmentation and inefficiencies associated with monolithic KV cache allocations. Implemented within IBM's Foundation Model Stack (FMS), our fused attention kernel efficiently gathers scattered KV data. Our benchmarks on an NVIDIA L4 GPU (24GB) demonstrate significantly reduced inference latency, growing only linearly (~2x) with sequence length from 128 to 2048 tokens when utilizing a global KV cache, compared to exponential latency increases without caching. While peak memory usage remains largely unchanged for single-step evaluations (dominated by model weights and activations), paged attention causes minimal incremental memory usage, observable only at sequence lengths exceeding 2048 tokens due to its power-of-two cache allocations. We open-source the full implementation and discuss its implications for future long-context model deployment.
- Abstract(参考訳): 大言語モデル(LLM)は、キー値(KV)キャッシュの従来の処理により、長いコンテキスト推論中に深刻なメモリ不効率に遭遇する。
本稿では,PyTorch の FlexAttention と PagedAttention を統合し,モノリシック KV キャッシュ割り当てに関連する内部の断片化と非効率性に対処する。
IBMのファンデーション・モデル・スタック(FMS)に実装され、融合した注目カーネルは分散KVデータを効率的に収集する。
NVIDIA L4 GPU (24GB) のベンチマークでは推論遅延が大幅に減少し,グローバルなKVキャッシュを利用する場合,シーケンス長が128~2048トークンの線形(~2倍)にしか増加しなかった。
ピークメモリの利用はシングルステップ評価(モデルの重み付けとアクティベーションによって支配される)に大きく変化しないが、ページアテンションはインクリメンタルメモリの使用を最小限にし、2つのキャッシュ割り当てのために2048トークンを超えるシーケンス長でしか観測できない。
実装全体をオープンソースとして公開し、将来の長期コンテキストモデル展開におけるその意義について論じます。
関連論文リスト
- CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。