論文の概要: Low-Cost FlashAttention with Fused Exponential and Multiplication Hardware Operators
- arxiv url: http://arxiv.org/abs/2505.14314v1
- Date: Tue, 20 May 2025 13:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.23751
- Title: Low-Cost FlashAttention with Fused Exponential and Multiplication Hardware Operators
- Title(参考訳): 融合指数・乗算ハードウェア演算子を用いた低コストフラッシュアテンション
- Authors: Kosmas Alexandridis, Vasileios Titopoulos, Giorgos Dimitrakopoulos,
- Abstract要約: 我々は,指数関数とベクトル乗算の計算を融合した新しいハードウェア演算子を用いて,浮動小数点型FlashAttentionのカーネルの最適化に着目する。
提案されたExpMulハードウェアオペレータは、FlashAttentionベースのハードウェアアクセラレータの面積と電力コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 3.668018928502405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms, particularly within Transformer architectures and large language models (LLMs), have revolutionized sequence modeling in machine learning and artificial intelligence applications. To compute attention for increasingly long sequences, specialized accelerators have been proposed to execute key attention steps directly in hardware. Among the various recently proposed architectures, those based on variants of the FlashAttention algorithm, originally designed for GPUs, stand out due to their optimized computation, tiling capabilities, and reduced memory traffic. In this work, we focus on optimizing the kernel of floating-point-based FlashAttention using new hardware operators that fuse the computation of exponentials and vector multiplications, e.g., e^x, V. The proposed ExpMul hardware operators significantly reduce the area and power costs of FlashAttention-based hardware accelerators. When implemented in a 28nm ASIC technology, they achieve improvements of 28.8% in area and 17.6% in power, on average, compared to state-of-the-art hardware architectures with separate exponentials and vector multiplications hardware operators.
- Abstract(参考訳): 特にトランスフォーマーアーキテクチャと大規模言語モデル(LLM)における注意機構は、機械学習および人工知能アプリケーションにおけるシーケンスモデリングに革命をもたらした。
ますます長いシーケンスに注意を向けるために、ハードウェアで重要な注意ステップを直接実行する特別なアクセラレータが提案されている。
最近提案された様々なアーキテクチャの中で、元々GPU用に設計されたFlashAttentionアルゴリズムの変種に基づいており、最適化された計算、タイリング機能、メモリトラフィックの削減のために際立っている。
本稿では,指数関数とベクトル乗算の計算を融合した新しいハードウェア演算子,例えば e^x, V を用いて,浮動小数点型FlashAttention のカーネルを最適化することに着目し,提案ハードウェア演算子により,FlashAttention ベースのハードウェアアクセラレータの面積と消費電力を大幅に削減する。
28nmのASIC技術で実装すると、28.8%の面積と17.6%の電力を平均的に達成し、異なる指数関数とベクトル乗算のハードウェア演算子を持つ最先端のハードウェアアーキテクチャと比較した。
関連論文リスト
- FLASH-D: FlashAttention with Hidden Softmax Division [3.668018928502405]
FlashAttentionはオンラインのソフトマックス計算に基づいており、ソフトマックス計算と行列演算を統合している。
この研究は、FLASH-Dを数学的に等価だが単純化した定式化として、 (a) ソフトマックス分割を他の非線形関数評価内に隠蔽し、 (b) 本質的に指数関数の数値的に安定な計算を行い、 (c) FlashAttentionカーネルに数値近似を導入することなく計算コストを削減した。
論文 参考訳(メタデータ) (2025-05-20T11:01:33Z) - Dynamic Range Reduction via Branch-and-Bound [1.533133219129073]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - HAPM -- Hardware Aware Pruning Method for CNN hardware accelerators in resource constrained devices [44.99833362998488]
本研究はFPGAデバイスに実装可能な汎用ハードウェアアーキテクチャを提案する。
設計の推論速度は、リソース制約の異なるFPGAデバイス上で評価される。
ハードウェア対応プルーニングアルゴリズムは,標準アルゴリズムを用いたネットワークプルーニングに比べて,推論時間45%の顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-08-26T07:27:12Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Near-Optimal Hardware Design for Convolutional Neural Networks [0.0]
本研究では,畳み込みニューラルネットワークのための新しい,特殊目的,高効率ハードウェアアーキテクチャを提案する。
提案アーキテクチャは,モデルの計算フローと同じ構造を持つ計算回路を設計することにより,乗算器の利用を最大化する。
提案するハードウェアアーキテクチャに基づく実装が,商用AI製品に適用されている。
論文 参考訳(メタデータ) (2020-02-06T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。