Fugu-MT 論文翻訳(概要): FLASH-D: FlashAttention with Hidden Softmax Division

論文の概要: FLASH-D: FlashAttention with Hidden Softmax Division

arxiv url: http://arxiv.org/abs/2505.14201v1
Date: Tue, 20 May 2025 11:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.081116
Title: FLASH-D: FlashAttention with Hidden Softmax Division
Title（参考訳）: FLASH-D:FlashAttention with Hidden Softmax Division
Authors: Kosmas Alexandridis, Vasileios Titopoulos, Giorgos Dimitrakopoulos,
Abstract要約: FlashAttentionはオンラインのソフトマックス計算に基づいており、ソフトマックス計算と行列演算を統合している。この研究は、FLASH-Dを数学的に等価だが単純化した定式化として、 (a) ソフトマックス分割を他の非線形関数評価内に隠蔽し、 (b) 本質的に指数関数の数値的に安定な計算を行い、 (c) FlashAttentionカーネルに数値近似を導入することなく計算コストを削減した。
参考スコア（独自算出の注目度）: 3.668018928502405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The transformer's attention mechanism has revolutionized AI and machine learning, with its efficient computation being crucial to its performance. However, calculating attention involves matrix operations interspersed with softmax rescaling, which inherently slows down computation and requires processing the entire input sequence. Building on online softmax computation, FlashAttention integrates softmax calculation with matrix arithmetic, enabling tiled computation independent of sequence length. While optimized for GPUs, FlashAttention's simplicity makes it amenable to direct hardware acceleration. This work re-evaluates the core FlashAttention kernel, presenting FLASH-D a mathematically equivalent, yet simplified, formulation that achieves: (a) hiding softmax division within other non-linear function evaluations; (b) inherently numerically stable computation of exponentials, eliminating the need for maximum value subtraction; and (c) a reduction in computational cost without introducing numerical approximations to the FlashAttention kernel. Importantly, the essential FlashAttention properties that facilitate efficient tiled implementation are fully preserved. Hardware implementation results at 28nm demonstrate that this proposed formulation achieves a 22.8% reduction in area and a 20.3% reduction in power, on average, compared to state-of-the-art parallel hardware architectures without any performance penalty.
Abstract（参考訳）: トランスフォーマーの注意機構は、AIと機械学習に革命をもたらし、その効率的な計算はそのパフォーマンスに不可欠である。しかし、注意力の計算にはソフトマックス再スケーリングが混在する行列演算が含まれており、これは本質的に計算を遅くし、入力シーケンス全体を処理する必要がある。オンラインのソフトマックス計算に基づいて、FlashAttentionは、ソフトマックス計算と行列演算を統合し、列長に依存しないタイル付き計算を可能にする。 GPUに最適化されているが、FlashAttentionのシンプルさは、ハードウェアアクセラレーションを直接実行可能にする。この研究はコアFlashAttentionカーネルを再評価し、FLASH-Dは数学的に等価だが単純化された定式化を実現している。 (a)他の非線形関数評価におけるソフトマックス分割の隠蔽 (b)指数関数の本質的に数値的に安定な計算、最大値減算の必要性の排除、及び (c)FlashAttentionカーネルに数値近似を導入することなく計算コストを削減する。重要なのは、効率的なタイル実装を容易にする重要なFlashAttentionプロパティが完全に保存されていることだ。 28nmのハードウェア実装結果は、この提案された定式化によって、性能上のペナルティのない最先端の並列ハードウェアアーキテクチャと比較して、面積が22.8%減少し、消費電力が20.3%減少したことを実証している。

関連論文リスト

Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
Low-Cost FlashAttention with Fused Exponential and Multiplication Hardware Operators [3.668018928502405]
我々は,指数関数とベクトル乗算の計算を融合した新しいハードウェア演算子を用いて,浮動小数点型FlashAttentionのカーネルの最適化に着目する。提案されたExpMulハードウェアオペレータは、FlashAttentionベースのハードウェアアクセラレータの面積と電力コストを大幅に削減する。
論文参考訳（メタデータ） (2025-05-20T13:00:59Z)
VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文参考訳（メタデータ） (2025-04-15T14:28:48Z)
FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores [6.404201720333765]
我々は、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。我々はFlashSparseがスパース行列乗算のための新しい最先端技術(幾何学平均はDTC-SpMMより5.5倍、RoDeより3.22倍)をセットしていることを示す。
論文参考訳（メタデータ） (2024-12-15T01:12:33Z)
FlashMask: Efficient and Rich Mask Extension of FlashAttention [22.810595298076866]
FlashMaskはFlashAttentionの拡張であり、アテンションマスクのカラム単位のスパース表現を導入している。この新しい表現を採用することで、FlashMaskは長いコンテキストシーケンスのモデリングに適した線形メモリ複雑性$O(N)$を達成する。 SFT, LoRA, DPO, RMなどのLLMの微調整およびアライメント訓練におけるFlashMaskの性能を評価する。
論文参考訳（メタデータ） (2024-10-02T09:17:26Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文参考訳（メタデータ） (2021-10-22T17:57:29Z)
Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文参考訳（メタデータ） (2021-06-02T22:03:36Z)
Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。 40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文参考訳（メタデータ） (2021-03-11T07:10:32Z)
Efficient Learning of Generative Models via Finite-Difference Score Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文参考訳（メタデータ） (2020-07-07T10:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。