論文の概要: FLASH-D: FlashAttention with Hidden Softmax Division
- arxiv url: http://arxiv.org/abs/2505.14201v1
- Date: Tue, 20 May 2025 11:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.081116
- Title: FLASH-D: FlashAttention with Hidden Softmax Division
- Title(参考訳): FLASH-D:FlashAttention with Hidden Softmax Division
- Authors: Kosmas Alexandridis, Vasileios Titopoulos, Giorgos Dimitrakopoulos,
- Abstract要約: FlashAttentionはオンラインのソフトマックス計算に基づいており、ソフトマックス計算と行列演算を統合している。
この研究は、FLASH-Dを数学的に等価だが単純化した定式化として、 (a) ソフトマックス分割を他の非線形関数評価内に隠蔽し、 (b) 本質的に指数関数の数値的に安定な計算を行い、 (c) FlashAttentionカーネルに数値近似を導入することなく計算コストを削減した。
- 参考スコア(独自算出の注目度): 3.668018928502405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer's attention mechanism has revolutionized AI and machine learning, with its efficient computation being crucial to its performance. However, calculating attention involves matrix operations interspersed with softmax rescaling, which inherently slows down computation and requires processing the entire input sequence. Building on online softmax computation, FlashAttention integrates softmax calculation with matrix arithmetic, enabling tiled computation independent of sequence length. While optimized for GPUs, FlashAttention's simplicity makes it amenable to direct hardware acceleration. This work re-evaluates the core FlashAttention kernel, presenting FLASH-D a mathematically equivalent, yet simplified, formulation that achieves: (a) hiding softmax division within other non-linear function evaluations; (b) inherently numerically stable computation of exponentials, eliminating the need for maximum value subtraction; and (c) a reduction in computational cost without introducing numerical approximations to the FlashAttention kernel. Importantly, the essential FlashAttention properties that facilitate efficient tiled implementation are fully preserved. Hardware implementation results at 28nm demonstrate that this proposed formulation achieves a 22.8% reduction in area and a 20.3% reduction in power, on average, compared to state-of-the-art parallel hardware architectures without any performance penalty.
- Abstract(参考訳): トランスフォーマーの注意機構は、AIと機械学習に革命をもたらし、その効率的な計算はそのパフォーマンスに不可欠である。
しかし、注意力の計算にはソフトマックス再スケーリングが混在する行列演算が含まれており、これは本質的に計算を遅くし、入力シーケンス全体を処理する必要がある。
オンラインのソフトマックス計算に基づいて、FlashAttentionは、ソフトマックス計算と行列演算を統合し、列長に依存しないタイル付き計算を可能にする。
GPUに最適化されているが、FlashAttentionのシンプルさは、ハードウェアアクセラレーションを直接実行可能にする。
この研究はコアFlashAttentionカーネルを再評価し、FLASH-Dは数学的に等価だが単純化された定式化を実現している。
(a)他の非線形関数評価におけるソフトマックス分割の隠蔽
(b)指数関数の本質的に数値的に安定な計算、最大値減算の必要性の排除、及び
(c)FlashAttentionカーネルに数値近似を導入することなく計算コストを削減する。
重要なのは、効率的なタイル実装を容易にする重要なFlashAttentionプロパティが完全に保存されていることだ。
28nmのハードウェア実装結果は、この提案された定式化によって、性能上のペナルティのない最先端の並列ハードウェアアーキテクチャと比較して、面積が22.8%減少し、消費電力が20.3%減少したことを実証している。
関連論文リスト
- Low-Cost FlashAttention with Fused Exponential and Multiplication Hardware Operators [3.668018928502405]
我々は,指数関数とベクトル乗算の計算を融合した新しいハードウェア演算子を用いて,浮動小数点型FlashAttentionのカーネルの最適化に着目する。
提案されたExpMulハードウェアオペレータは、FlashAttentionベースのハードウェアアクセラレータの面積と電力コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-20T13:00:59Z) - VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。
シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。
我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文 参考訳(メタデータ) (2025-04-15T14:28:48Z) - FlashMask: Efficient and Rich Mask Extension of FlashAttention [22.810595298076866]
FlashMaskはFlashAttentionの拡張であり、アテンションマスクのカラム単位のスパース表現を導入している。
この新しい表現を採用することで、FlashMaskは長いコンテキストシーケンスのモデリングに適した線形メモリ複雑性$O(N)$を達成する。
SFT, LoRA, DPO, RMなどのLLMの微調整およびアライメント訓練におけるFlashMaskの性能を評価する。
論文 参考訳(メタデータ) (2024-10-02T09:17:26Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。