論文の概要: Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM
- arxiv url: http://arxiv.org/abs/2410.07531v1
- Date: Thu, 10 Oct 2024 01:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:36:31.295847
- Title: Reducing the Cost of Dropout in Flash-Attention by Hiding RNG with GEMM
- Title(参考訳): GEMMを用いたRNGハイディングによるフラッシュアテンションにおけるドロップアウトコストの低減
- Authors: Haiyue Ma, Jian Liu, Ronny Krashinsky,
- Abstract要約: 本稿では,RNG ランタイムを隠蔽し,エンドツーエンドの性能を向上させるため,従来の GEMM レイヤと重複する RNG を提案する。
Llama2の1つの変圧器ブロックで1.14倍のスピードアップ、ワークロードサイズが変化すると最大1.23倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 3.291855382160484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dropout, a network operator, when enabled is likely to dramatically impact the performance of Flash-Attention, which in turn increases the end-to-end training time of Large-Language-Models (LLMs). The main contributor to such performance degradation is the Random Number Generation (RNG) phase that is traditionally fused into the Flash-Attention kernel. As RNG and Attention have the same hardware bottlenecks, RNG latency can hardly be hidden within the Attention kernel. We propose overlapping RNG with previous GEMM layers in the network to hide RNG runtime and improve end-to-end performance. RNG and GEMM have distinct resource requirements and hardware bottlenecks, so they can run in parallel without compromising each other's performance. Our fine-grained performance model, cross-validated by silicon results, shows 1.14x speedup on one transformer block (including multi-head attention and feed-forward layers) for Llama2, and up to 1.23x speedup when varying workload sizes, on GH100 GPUs with FP8 precision. Further, we extend our theoretical model to different RNG implementations and hardware architectures, and discuss the widely applicable benefits for overlapping RNG with GEMM layers.
- Abstract(参考訳): ネットワークオペレータが有効になった場合、DropoutはFlash-Attentionのパフォーマンスに劇的に影響し、これによりLarge-Language-Models(LLMs)のエンドツーエンドのトレーニング時間が向上する。
このようなパフォーマンス劣化の主な要因は、伝統的にFlash-Attentionカーネルに融合したランダム数生成(RNG)フェーズである。
RNGとAttentionは同じハードウェアボトルネックを持つため、RNGレイテンシはAttentionカーネル内にはほとんど隠せない。
本稿では,RNG ランタイムを隠蔽し,エンドツーエンドの性能を向上させるため,従来の GEMM レイヤと重複する RNG を提案する。
RNGとGEMMは異なるリソース要件とハードウェアボトルネックを持ち、互いに性能を損なうことなく並列に実行できる。
Llama2の1つの変圧器ブロック(マルチヘッドアテンションやフィードフォワード層を含む)では1.14倍のスピードアップ、ワークロードサイズが変化すると最大1.23倍のスピードアップを、FP8精度のGH100 GPU上で実現しています。
さらに、我々の理論モデルを異なるRNG実装とハードウェアアーキテクチャに拡張し、GEMM層でRNGを重畳する利点について論じる。
関連論文リスト
- Constraints and Variables Reduction for Optimal Power Flow Using Hierarchical Graph Neural Networks with Virtual Node-Splitting [0.24554686192257422]
パワーシステムネットワークは、しばしば同質グラフとしてモデル化され、グラフニューラルネットワーク(GNN)が同一ノードで個々のジェネレータ機能をキャプチャする能力を制限する。
提案した仮想ノード分割戦略を導入することで、コスト、制限、ランプレートといったジェネレータレベルの特性をGNNモデルで完全に捉えることができる。
二段階適応階層型GNNは、(i)混雑する臨界線を予測し、(ii)最大容量で作動するベースジェネレータを予測するために開発された。
論文 参考訳(メタデータ) (2024-11-09T19:46:28Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FireFly v2: Advancing Hardware Support for High-Performance Spiking
Neural Network with a Spatiotemporal FPGA Accelerator [8.0611988136866]
Spiking Neural Networks(SNN)は、Artificial Neural Networks(ANN)の代替として期待されている。
特殊なSNNハードウェアは、電力と性能の点で汎用デバイスよりも明確な優位性を提供する。
FPGA SNNアクセラレータであるFireFly v2は、現在のSOTA SNNアルゴリズムにおける非スパイク操作の問題に対処することができる。
論文 参考訳(メタデータ) (2023-09-28T04:17:02Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。