論文の概要: Hardware-Efficient Attention for Fast Decoding
- arxiv url: http://arxiv.org/abs/2505.21487v1
- Date: Tue, 27 May 2025 17:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.848205
- Title: Hardware-Efficient Attention for Fast Decoding
- Title(参考訳): 高速復号化のためのハードウェア効率のよい注意
- Authors: Ted Zadouri, Hubert Strauss, Tri Dao,
- Abstract要約: Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。
最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
- 参考スコア(独自算出の注目度): 13.958883001629644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM decoding is bottlenecked for large batches and long contexts by loading the key-value (KV) cache from high-bandwidth memory, which inflates per-token latency, while the sequential nature of decoding limits parallelism. We analyze the interplay among arithmetic intensity, parallelization, and model quality and question whether current architectures fully exploit modern hardware. This work redesigns attention to perform more computation per byte loaded from memory to maximize hardware efficiency without trading off parallel scalability. We first propose Grouped-Tied Attention (GTA), a simple variant that combines and reuses key and value states, reducing memory transfers without compromising model quality. We then introduce Grouped Latent Attention (GLA), a parallel-friendly latent attention paired with low-level optimizations for fast decoding while maintaining high model quality. Experiments show that GTA matches Grouped-Query Attention (GQA) quality while using roughly half the KV cache and that GLA matches Multi-head Latent Attention (MLA) and is easier to shard. Our optimized GLA kernel is up to 2$\times$ faster than FlashMLA, for example, in a speculative decoding setting when the query length exceeds one. Furthermore, by fetching a smaller KV cache per device, GLA reduces end-to-end latency and increases throughput in online serving benchmarks by up to 2$\times$.
- Abstract(参考訳): LLMデコーディングは、キー値(KV)キャッシュを高帯域メモリからロードすることで、大きなバッチや長いコンテキストにおいてボトルネックとなる。
演算強度、並列化、モデル品質の相互作用を分析し、現在のアーキテクチャが最新のハードウェアを完全に活用しているかどうかを問う。
この作業は、メモリからロードされたバイト当たりの計算量を増やして、並列スケーラビリティを犠牲にすることなく、ハードウェア効率を最大化するよう、再設計されている。
まず、キーと値の状態を組み合わせて再利用し、モデル品質を損なうことなくメモリ転送を減らし、GTA(Grouped-Tied Attention)を提案する。
次に、高速デコードのための低レベル最適化と組み合わせて、高いモデル品質を維持しながら、並列に親しみやすい潜在注意点であるGrouped Latent Attention (GLA)を紹介した。
実験の結果,GTAが約半分のKVキャッシュを使用しながらGQA(Grouped-Query Attention)の品質と一致し,GLAがMLA(Multi-head Latent Attention)と一致し,シャードが容易であることがわかった。
最適化されたGLAカーネルは、例えば、クエリ長が1を超えると投機的デコード設定で、FlashMLAよりも最大2$\times$高速です。
さらに、デバイス毎のKVキャッシュを小さくすることで、GLAはエンドツーエンドのレイテンシを低減し、オンラインサービスベンチマークのスループットを最大2$\times$に向上する。
関連論文リスト
- FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization [17.202495171443932]
我々は,高い精度と高い性能を同時に達成するアクセラレーションソリューションであるOakenを提案する。
Oakenはオンラインとオフラインのハイブリッドアプローチを採用し、オフラインのしきい値を設定して、オンラインの量子化スケールを決定する。
我々の実験によると、256のバッチサイズでは、OakenはA100 GPUよりも最大1.58倍のスループット向上を実現し、最小精度の損失は平均0.54%である。
論文 参考訳(メタデータ) (2025-03-24T11:56:50Z) - LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention [26.54297116028556]
大規模言語モデル(LLM)は、長いシーケンスや複雑な推論タスクの処理において顕著な可能性を示している。
LServeは,ハイブリッドスパースアテンションにより長周期LLMサービスを高速化する,効率的なシステムである。
LServeはLLMプリフィルを最大2.9倍加速し、vLLMで1.3-2.1倍デコードする。
論文 参考訳(メタデータ) (2025-02-20T18:59:52Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。