論文の概要: FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding
- arxiv url: http://arxiv.org/abs/2505.17694v1
- Date: Fri, 23 May 2025 10:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.982148
- Title: FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding
- Title(参考訳): FlashForge: LLMデコードのための超効率的なプレフィックスアウェアアテンション
- Authors: Zhibin Wang, Rui Ning, Chao Fang, Zhonghui Zhang, Xi Lin, Shaobo Ma, Mo Zhou, Xue Li, Zhongfeng Wang, Chengying Huan, Rong Gu, Kun Yang, Guihai Chen, Sheng Zhong, Chen Tian,
- Abstract要約: 複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。
デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。
我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
- 参考スコア(独自算出の注目度): 44.47821531299985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prefix-sharing among multiple prompts presents opportunities to combine the operations of the shared prefix, while attention computation in the decode stage, which becomes a critical bottleneck with increasing context lengths, is a memory-intensive process requiring heavy memory access on the key-value (KV) cache of the prefixes. Therefore, in this paper, we explore the potential of prefix-sharing in the attention computation of the decode stage. However, the tree structure of the prefix-sharing mechanism presents significant challenges for attention computation in efficiently processing shared KV cache access patterns while managing complex dependencies and balancing irregular workloads. To address the above challenges, we propose a dedicated attention kernel to combine the memory access of shared prefixes in the decoding stage, namely FlashForge. FlashForge delivers two key innovations: a novel shared-prefix attention kernel that optimizes memory hierarchy and exploits both intra-block and inter-block parallelism, and a comprehensive workload balancing mechanism that efficiently estimates cost, divides tasks, and schedules execution. Experimental results show that FlashForge achieves an average 1.9x speedup and 120.9x memory access reduction compared to the state-of-the-art FlashDecoding kernel regarding attention computation in the decode stage and 3.8x end-to-end time per output token compared to the vLLM.
- Abstract(参考訳): 複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を示し、デコードステージにおける注意計算は、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。
そこで本稿では,デコードステージのアテンション計算におけるプレフィックス共有の可能性について検討する。
しかし、プレフィックス共有機構のツリー構造は、複雑な依存関係を管理し、不規則なワークロードのバランスを保ちながら、共有KVキャッシュアクセスパターンを効率的に処理する際の注意計算に重大な課題をもたらす。
上記の課題に対処するために、デコード段階で共有プレフィックスのメモリアクセス、すなわちFlashForgeを結合する専用のアテンションカーネルを提案する。
FlashForgeは、メモリ階層を最適化し、ブロック内とブロック間並列性の両方を活用する新しい共有修正アテンションカーネルと、コストを効率的に見積り、タスクを分割し、実行をスケジュールする包括的なワークロードバランシングメカニズムの2つの重要なイノベーションを提供している。
実験結果から、FlashForgeはデコードステージにおけるアテンション計算に関する最先端のFlashデコードカーネルと比較して平均1.9倍のスピードアップと120.9倍のメモリアクセス削減を実現し、vLLMと比較して出力トークン毎のエンド・ツー・エンド時間は3.8倍であることがわかった。
関連論文リスト
- TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - DeFT: Decoding with Flash Tree-attention for Efficient Tree-structured LLM Inference [22.684773338989007]
大規模言語モデル(LLM)は、トークンの共有プレフィックスを持つツリー構造において、複数の世代呼び出しを処理する複雑なタスクにますます採用されている。
木に基づくアプリケーションの既存の推論システムは、注意計算中にクエリとKVキャッシュの不適切なパーティショニングのために非効率である。
我々は,プレフィックス認識と負荷分散KVキャッシュパーティションを用いたハードウェア効率の高いアテンションアルゴリズムであるDeFTを提案する。
論文 参考訳(メタデータ) (2024-03-30T04:34:54Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。