論文の概要: Accelerating Transformer Inference and Training with 2:4 Activation Sparsity
- arxiv url: http://arxiv.org/abs/2503.16672v1
- Date: Thu, 20 Mar 2025 19:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:10.940816
- Title: Accelerating Transformer Inference and Training with 2:4 Activation Sparsity
- Title(参考訳): 2:4 Activation Sparsityによるトランスフォーマー推論とトレーニングの高速化
- Authors: Daniel Haziza, Timothy Chou, Dhruv Choudhary, Luca Wehrstedt, Francisco Massa, Jiecao Yu, Geonhwa Jeong, Supriya Rao, Patrick Labatut, Jesse Cai,
- Abstract要約: 我々は,Squared-ReLUアクティベーションの固有間隔を利用して,精度を損なうことなく,このアクティベーションを実現する。
この研究は、大規模な言語モデルのトレーニングと推論を加速する上で、スパーシリティが重要な役割を果たす可能性を強調している。
- 参考スコア(独自算出の注目度): 6.889098561850103
- License:
- Abstract: In this paper, we demonstrate how to leverage 2:4 sparsity, a popular hardware-accelerated GPU sparsity pattern, to activations to accelerate large language model training and inference. Crucially we exploit the intrinsic sparsity found in Squared-ReLU activations to provide this acceleration with no accuracy loss. Our approach achieves up to 1.3x faster Feed Forward Network (FFNs) in both the forwards and backwards pass. This work highlights the potential for sparsity to play a key role in accelerating large language model training and inference.
- Abstract(参考訳): 本稿では,ハードウェアアクセラレーションを高速化するGPUスペーサパターンである2:4スペーサリティをアクティベーションに活用して,大規模言語モデルのトレーニングと推論を高速化する方法を実証する。
重要なことは、Squared-ReLUのアクティベーションで見られる本質的な間隔を利用して、精度を損なうことなく、この加速度を提供する。
提案手法は, フィードフォワードネットワーク(FFN)の転送速度を最大1.3倍に向上する。
この研究は、大規模な言語モデルのトレーニングと推論を加速する上で、スパーシリティが重要な役割を果たす可能性を強調している。
関連論文リスト
- Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。
高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。
携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文 参考訳(メタデータ) (2024-06-10T01:21:59Z) - Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。
そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。
提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文 参考訳(メタデータ) (2024-04-02T11:12:42Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - Training for temporal sparsity in deep neural networks, application in
video processing [0.30458514384586394]
アクティベーション・スパシティは、スパシティを意識したニューラルネットワークアクセラレーターにおける計算効率とリソース利用を改善する。
デルタ活性化層(Delta Activation Layer)と呼ばれる新しいレイヤを導入し、トレーニング中のアクティベーションの時間的間隔を促進する。
より長期トレーニング後のモデル精度の回復を可能とし, ほぼ3倍のアクティベーション間隔の改善を報告した。
論文 参考訳(メタデータ) (2021-07-15T13:17:11Z) - Accelerating Sparse Deep Neural Networks [20.6942347219753]
本研究では,密度行列ユニットの計算スループットを2倍にする2:4 (25%) のスパースパターンを利用したスパースコアの設計と挙動を示す。
また,2:4のスパーシティパターン要件を満たすネットワークをトレーニングし,精度を維持するための簡単なワークフローについても述べる。
論文 参考訳(メタデータ) (2021-04-16T21:27:32Z) - Improving Adversarial Robustness via Channel-wise Activation Suppressing [65.72430571867149]
深層ニューラルネットワーク(DNN)を用いたセキュアで堅牢な学習において,その逆例とその活性化に関する研究が注目されている。
本稿では,チャネルワイドアクティベーションの観点から,敵対的事例の新たな特徴を2つ挙げる。
我々は,CASが本質的に敵の活性化を抑制するモデルを訓練でき,既存の防御手法にも容易に適用でき,より堅牢性を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-11T03:44:16Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。