論文の概要: PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel
- arxiv url: http://arxiv.org/abs/2511.22333v1
- Date: Thu, 27 Nov 2025 11:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.530394
- Title: PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel
- Title(参考訳): PAT:資源効率の良いマルチタイルカーネルによるプレフィックス・アウェア・アテンションによるLCMデコーディングの高速化
- Authors: Jinjun Yi, Zhixin Zhao, Yitao Hu, Ke Yan, Weiwei Sun, Hao Wang, Laiping Zhao, Yuhao Zhang, Wenxin Li, Keqiu Li,
- Abstract要約: LLMは、グローバルメモリから大量のKVキャッシュをロードするため、メモリバウンドな操作であるデコードアテンションによって、ますます支配的になっている。
本稿では,LCM復号化のためのプレフィックス対応アテンションカーネル実装であるPATを紹介し,パックフォワード・マージのパラダイムによる実行を整理する。
PATは注目のレイテンシを平均67.4%削減し、TPOTは13.6-83.4%削減した。
- 参考スコア(独自算出の注目度): 19.009329924868002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM serving is increasingly dominated by decode attention, which is a memory-bound operation due to massive KV cache loading from global memory. Meanwhile, real-world workloads exhibit substantial, hierarchical shared prefixes across requests (e.g., system prompts, tools/templates, RAG). Existing attention implementations fail to fully exploit prefix sharing: *one-query-per-CTA* execution repeatedly loads shared prefix KV cache, while *one-size-fits-all* tiling leaves on-chip resources idle and exacerbates bubbles for uneven KV lengths. These choices amplify memory bandwidth pressure and stall memory-bound decode attention. This paper introduces PAT, a prefix-aware attention kernel implementation for LLM decoding that organizes execution with a pack-forward-merge paradigm. PAT packs queries by shared prefix to reduce repeated memory accesses, runs a customized multi-tile kernel to achieve high resource efficiency. It further applies practical multi-stream forwarding and KV splitting to reduce resource bubbles. The final merge performs online softmax with negligible overhead. We implement PAT as an off-the-shelf plugin for vLLM. Evaluation on both real-world and synthetic workloads shows that PAT reduces attention latency by 67.4% on average and TPOT by 13.6-83.4% under the same configurations against state-of-the-art attention kernels.
- Abstract(参考訳): LLMは、グローバルメモリから大量のKVキャッシュをロードするため、メモリバウンドな操作であるデコードアテンションによって、ますます支配的になっている。
一方、現実世界のワークロードには、リクエスト全体(例えば、システムプロンプト、ツール/テンプレート、RAGなど)で実質的で階層的な共有プレフィックスがあります。
One-query-per-CTA* 実行は共有プレフィックス KV キャッシュを繰り返しロードするが、*one-size-fits-all* タイリングはオンチップリソースをアイドルし、不均一な KV 長さでバブルを悪化させる。
これらの選択はメモリ帯域幅の圧力を増幅し、メモリバウンドなデコードアテンションを停止させる。
本稿では,LCM復号化のためのプレフィックス対応アテンションカーネル実装であるPATを紹介し,パックフォワード・マージのパラダイムによる実行を整理する。
PATはクエリを共有プレフィックスでパックし、繰り返しメモリアクセスを削減し、カスタマイズされたマルチタイルカーネルを実行し、高いリソース効率を実現する。
さらに、リソースバブルを減らすために、実用的なマルチストリーム転送とKV分割を適用する。
最後のマージは、無視できるオーバーヘッドでオンラインのソフトマックスを実行する。
VLLM の既製のプラグインとして PAT を実装した。
実世界のワークロードと合成ワークロードの両方で評価すると、PATは注目のレイテンシを平均67.4%削減し、TPOTは13.6-83.4%削減した。
関連論文リスト
- TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。
木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。
我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文 参考訳(メタデータ) (2024-03-30T04:34:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。