論文の概要: Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM
- arxiv url: http://arxiv.org/abs/2410.07531v2
- Date: Sat, 05 Jul 2025 05:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 17:51:39.392612
- Title: Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM
- Title(参考訳): GEMMを用いたRNGハイディングによるフラッシュアテンションにおけるドロップアウトコストの低減
- Authors: Haiyue Ma, Jian Liu, Ronny Krashinsky,
- Abstract要約: ネットワークオペレータが有効になった場合、DropoutはFlash-Attentionのパフォーマンスに劇的に影響する可能性が高い。
RNGレイテンシを隠蔽し、エンドツーエンドのパフォーマンスを向上させるために、ネットワーク内の従来のGEMMレイヤと重複するRNGを提案する。
- 参考スコア(独自算出の注目度): 3.291855382160484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dropout, a network operator, when enabled is likely to dramatically impact the performance of Flash-Attention, which in turn increases the end-to-end training time of Large-Language-Models (LLMs). The main contributor to such performance degradation is the Random Number Generation (RNG) phase. The state-of-the-art optimization is to fuse RNG into the Flash-Attention kernel. However, while RNG and Attention do not compete on compute or memory resources, they are bounded on the same lower-level architecture bottlenecks. Fusion can hardly hide RNG latency within the Attention kernel. We propose overlapping RNG with previous GEMM layers in the network to hide RNG latency and improve end-to-end performance. RNG and GEMM have distinct resource requirements and hardware bottlenecks, so they can run together without compromising each other's performance. We propose a fine-grained analytical performance model that analyzes low-level architecture resource utilization to evaluate RNG-GEMM overlapping performance benefits. This model, cross-validated by silicon results, shows 1.26x speedup for overlapping RNG and GEMM layers over a sequential implementation on one Transformer Block (one LLM layer including multi-head attention and feed-forward layers), and 1.22x over state-of-the-art fusion implementation, for Llama3 on GH100 GPUs with FP8 precision. Because the kernel patterns are regular, the findings of the shared bottlenecks, as well as the achievable performance benefits, can be generalized to different model architectures, software implementations and hardware configurations.
- Abstract(参考訳): ネットワークオペレータが有効になった場合、DropoutはFlash-Attentionのパフォーマンスに劇的に影響し、これによりLarge-Language-Models(LLMs)のエンドツーエンドのトレーニング時間が向上する。
このような性能劣化の主な要因はランダム数生成(RNG)フェーズである。
最先端の最適化は、RNGをFlash-Attentionカーネルに融合させることである。
しかしながら、RNGとAttentionは計算リソースやメモリリソースと競合するわけではないが、それらは同じ低レベルのアーキテクチャボトルネックに縛られている。
核融合は、アテンションカーネル内のRNGレイテンシをほとんど隠さない。
RNGレイテンシを隠蔽し、エンドツーエンドのパフォーマンスを向上させるために、ネットワーク内の従来のGEMMレイヤと重複するRNGを提案する。
RNGとGEMMは、異なるリソース要件とハードウェアボトルネックを持っているため、互いに性能を損なうことなく、一緒に動作することができる。
本稿では,RNG-GEMMオーバーラップ性能の利点を評価するために,低レベルのアーキテクチャ資源利用状況を分析した詳細な解析性能モデルを提案する。
このモデルでは、1つのTransformer Block上の逐次実装(マルチヘッドアテンションとフィードフォワード層を含む1つのLLM層)上でRNGとGEMMの重なり合うレイヤを1.26倍高速化し、FP8精度のGH100 GPU上でのLlama3の最先端融合実装を1.22倍高速化する。
カーネルパターンは正規であるため、共有ボトルネックの発見と達成可能なパフォーマンス上のメリットは、さまざまなモデルアーキテクチャ、ソフトウェア実装、ハードウェア構成に一般化することができる。
関連論文リスト
- Constraints and Variables Reduction for Optimal Power Flow Using Hierarchical Graph Neural Networks with Virtual Node-Splitting [0.24554686192257422]
パワーシステムネットワークは、しばしば同質グラフとしてモデル化され、グラフニューラルネットワーク(GNN)が同一ノードで個々のジェネレータ機能をキャプチャする能力を制限する。
提案した仮想ノード分割戦略を導入することで、コスト、制限、ランプレートといったジェネレータレベルの特性をGNNモデルで完全に捉えることができる。
二段階適応階層型GNNは、(i)混雑する臨界線を予測し、(ii)最大容量で作動するベースジェネレータを予測するために開発された。
論文 参考訳(メタデータ) (2024-11-09T19:46:28Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FireFly v2: Advancing Hardware Support for High-Performance Spiking
Neural Network with a Spatiotemporal FPGA Accelerator [8.0611988136866]
Spiking Neural Networks(SNN)は、Artificial Neural Networks(ANN)の代替として期待されている。
特殊なSNNハードウェアは、電力と性能の点で汎用デバイスよりも明確な優位性を提供する。
FPGA SNNアクセラレータであるFireFly v2は、現在のSOTA SNNアルゴリズムにおける非スパイク操作の問題に対処することができる。
論文 参考訳(メタデータ) (2023-09-28T04:17:02Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。