論文の概要: Vectorized FlashAttention with Low-cost Exponential Computation in RISC-V Vector Processors
- arxiv url: http://arxiv.org/abs/2510.06834v1
- Date: Wed, 08 Oct 2025 09:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.407059
- Title: Vectorized FlashAttention with Low-cost Exponential Computation in RISC-V Vector Processors
- Title(参考訳): RISC-Vベクトルプロセッサにおける低コスト指数計算によるベクトル化フラッシュアテンション
- Authors: Vasileios Titopoulos, Kosmas Alexandridis, Giorgos Dimitrakopoulos,
- Abstract要約: この研究は、ベクトルプロセッサにおけるFlashAttentionアルゴリズムを用いたアテンションカーネルの高速化に焦点を当てている。
浮動小数点算術における指数関数の低コスト近似を利用して指数関数の計算コストを削減する。
- 参考スコア(独自算出の注目度): 5.385189465543017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is a core operation in numerous machine learning and artificial intelligence models. This work focuses on the acceleration of attention kernel using FlashAttention algorithm, in vector processors, particularly those based on the RISC-V instruction set architecture (ISA). This work represents the first effort to vectorize FlashAttention, minimizing scalar code and simplifying the computational complexity of evaluating exponentials needed by softmax used in attention. By utilizing a low-cost approximation for exponentials in floating-point arithmetic, we reduce the cost of computing the exponential function without the need to extend baseline vector ISA with new custom instructions. Also, appropriate tiling strategies are explored with the goal to improve memory locality. Experimental results highlight the scalability of our approach, demonstrating significant performance gains with the vectorized implementations when processing attention layers in practical applications.
- Abstract(参考訳): 注意は、多くの機械学習および人工知能モデルにおける中核的な操作である。
この研究は、特にRISC-V命令セットアーキテクチャ(ISA)に基づくベクトルプロセッサにおいて、FlashAttentionアルゴリズムを用いたアテンションカーネルの高速化に焦点を当てている。
この研究は、FlashAttentionをベクトル化し、スカラーコードを最小化し、注意を引くために使われるソフトマックスが必要とする指数関数を評価する計算の複雑さを単純化する最初の試みである。
浮動小数点演算における指数関数の低コスト近似を利用して、新しいカスタム命令でベースラインベクトルISAを拡張することなく指数関数を計算するコストを削減する。
また、メモリの局所性を改善するための適切なタイリング戦略も検討されている。
実験により,本手法のスケーラビリティが強調され,実用アプリケーションにおける注目層処理時のベクトル化実装による大幅な性能向上が示された。
関連論文リスト
- Low-Cost FlashAttention with Fused Exponential and Multiplication Hardware Operators [3.668018928502405]
我々は,指数関数とベクトル乗算の計算を融合した新しいハードウェア演算子を用いて,浮動小数点型FlashAttentionのカーネルの最適化に着目する。
提案されたExpMulハードウェアオペレータは、FlashAttentionベースのハードウェアアクセラレータの面積と電力コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-20T13:00:59Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Dynamic Range Reduction via Branch-and-Bound [1.0141085397402314]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Non-Local Contrastive Attention for Image Super-Resolution [48.093500219958834]
非局所的注意(NLA)は、自然画像の内在的特徴相関を利用して、単一画像超解法(SISR)に大きな改善をもたらす。
本稿では,長期視覚モデリングを行い,より関連性の高い非局所的特徴を活用するための,効率的な非局所的コントラスト注意(ENLCA)を提案する。
論文 参考訳(メタデータ) (2022-01-11T05:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。