Fugu-MT 論文翻訳(概要): PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel

論文の概要: PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel

arxiv url: http://arxiv.org/abs/2511.22333v1
Date: Thu, 27 Nov 2025 11:10:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.530394
Title: PAT: Accelerating LLM Decoding via Prefix-Aware Attention with Resource Efficient Multi-Tile Kernel
Title（参考訳）: PAT:資源効率の良いマルチタイルカーネルによるプレフィックス・アウェア・アテンションによるLCMデコーディングの高速化
Authors: Jinjun Yi, Zhixin Zhao, Yitao Hu, Ke Yan, Weiwei Sun, Hao Wang, Laiping Zhao, Yuhao Zhang, Wenxin Li, Keqiu Li,
Abstract要約: LLMは、グローバルメモリから大量のKVキャッシュをロードするため、メモリバウンドな操作であるデコードアテンションによって、ますます支配的になっている。本稿では,LCM復号化のためのプレフィックス対応アテンションカーネル実装であるPATを紹介し,パックフォワード・マージのパラダイムによる実行を整理する。 PATは注目のレイテンシを平均67.4%削減し、TPOTは13.6-83.4%削減した。
参考スコア（独自算出の注目度）: 19.009329924868002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM serving is increasingly dominated by decode attention, which is a memory-bound operation due to massive KV cache loading from global memory. Meanwhile, real-world workloads exhibit substantial, hierarchical shared prefixes across requests (e.g., system prompts, tools/templates, RAG). Existing attention implementations fail to fully exploit prefix sharing: *one-query-per-CTA* execution repeatedly loads shared prefix KV cache, while *one-size-fits-all* tiling leaves on-chip resources idle and exacerbates bubbles for uneven KV lengths. These choices amplify memory bandwidth pressure and stall memory-bound decode attention. This paper introduces PAT, a prefix-aware attention kernel implementation for LLM decoding that organizes execution with a pack-forward-merge paradigm. PAT packs queries by shared prefix to reduce repeated memory accesses, runs a customized multi-tile kernel to achieve high resource efficiency. It further applies practical multi-stream forwarding and KV splitting to reduce resource bubbles. The final merge performs online softmax with negligible overhead. We implement PAT as an off-the-shelf plugin for vLLM. Evaluation on both real-world and synthetic workloads shows that PAT reduces attention latency by 67.4% on average and TPOT by 13.6-83.4% under the same configurations against state-of-the-art attention kernels.
Abstract（参考訳）: LLMは、グローバルメモリから大量のKVキャッシュをロードするため、メモリバウンドな操作であるデコードアテンションによって、ますます支配的になっている。一方、現実世界のワークロードには、リクエスト全体(例えば、システムプロンプト、ツール/テンプレート、RAGなど)で実質的で階層的な共有プレフィックスがあります。 One-query-per-CTA* 実行は共有プレフィックス KV キャッシュを繰り返しロードするが、*one-size-fits-all* タイリングはオンチップリソースをアイドルし、不均一な KV 長さでバブルを悪化させる。これらの選択はメモリ帯域幅の圧力を増幅し、メモリバウンドなデコードアテンションを停止させる。本稿では,LCM復号化のためのプレフィックス対応アテンションカーネル実装であるPATを紹介し,パックフォワード・マージのパラダイムによる実行を整理する。 PATはクエリを共有プレフィックスでパックし、繰り返しメモリアクセスを削減し、カスタマイズされたマルチタイルカーネルを実行し、高いリソース効率を実現する。さらに、リソースバブルを減らすために、実用的なマルチストリーム転送とKV分割を適用する。最後のマージは、無視できるオーバーヘッドでオンラインのソフトマックスを実行する。 VLLM の既製のプラグインとして PAT を実装した。実世界のワークロードと合成ワークロードの両方で評価すると、PATは注目のレイテンシを平均67.4%削減し、TPOTは13.6-83.4%削減した。

関連論文リスト

Multi-Head Low-Rank Attention [22.28455391125486]
MLA(Multi-Head Latent Attention)は、KVキャッシュの総サイズを大幅に削減する。単一の遅延ヘッドはパーティショニングできないため、各デバイスはトークン毎に完全なKVキャッシュを冗長にロードせざるを得ない。効率的な4方向TPデコーディングのための分割可能な潜在状態を実現するマルチヘッド低ランクアテンション(MLRA)を提案する。
論文参考訳（メタデータ） (2026-03-02T18:52:38Z)
DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。 DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文参考訳（メタデータ） (2026-02-08T15:14:36Z)
G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。 KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文参考訳（メタデータ） (2025-11-29T14:21:33Z)
TinyServe: Query-Aware Cache Selection for Efficient LLM Serving [5.216774377033164]
本稿では,大規模言語モデル(LLM)を効率的に提供するためのTinyServeを提案する。 TinyServeは、スポーシティ戦略ときめ細かいインスツルメンテーションでリアルタイムデコーディングを実行する。我々の実験では、TinyServeがtextbf3.4x の高速化と textbf2x のメモリ節約を無視できる精度の低下で実現している。
論文参考訳（メタデータ） (2025-08-28T16:17:18Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文参考訳（メタデータ） (2025-05-26T07:00:04Z)
Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文参考訳（メタデータ） (2025-05-09T04:17:05Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文参考訳（メタデータ） (2024-03-30T04:34:54Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。