論文の概要: Accelerating Transformer Pre-Training with 2:4 Sparsity
- arxiv url: http://arxiv.org/abs/2404.01847v1
- Date: Tue, 2 Apr 2024 11:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:49:07.445048
- Title: Accelerating Transformer Pre-Training with 2:4 Sparsity
- Title(参考訳): 2:4間隔での変圧器事前訓練の高速化
- Authors: Yuezhou Hu, Kang Zhao, Weiyu Huang, Jianfei Chen, Jun Zhu,
- Abstract要約: NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。
本稿では,2:4の異なるトレーニング手法において,複数のトランスフォーマー上での手法の組み合わせが最高の性能に達することを示す。
- 参考スコア(独自算出の注目度): 19.64391647966267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large Transformers is slow, but recent innovations on GPU architecture gives us an advantage. NVIDIA Ampere GPUs can execute a fine-grained 2:4 sparse matrix multiplication twice as fast as its dense equivalent. In the light of this property, we comprehensively investigate the feasibility of accelerating feed-forward networks (FFNs) of Transformers in pre-training. First, we define a "flip rate" to monitor the stability of a 2:4 training process. Utilizing this metric, we suggest two techniques to preserve accuracy: to modify the sparse-refined straight-through estimator by applying the mask decay term on gradients, and to enhance the model's quality by a simple yet effective dense fine-tuning procedure near the end of pre-training. Besides, we devise two effective techniques to practically accelerate training: to calculate transposable 2:4 mask by convolution, and to accelerate gated activation functions by reducing GPU L2 cache miss. Experiments show that a combination of our methods reaches the best performance on multiple Transformers among different 2:4 training methods, while actual acceleration can be observed on different shapes of Transformer block.
- Abstract(参考訳): 大きなトランスフォーマーのトレーニングは遅いが、GPUアーキテクチャに関する最近のイノベーションは、私たちに利点を与えてくれる。
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。
この特性から,トランスフォーマーのフィードフォワードネットワーク(FFN)の事前学習における実現可能性について包括的に検討する。
まず、2:4のトレーニングプロセスの安定性を監視するために「フリップ率」を定義します。
本手法を応用して, グラデーションにマスク減衰項を適用し, スパース精製ストレートスルー推定器を改良し, プレトレーニング終了付近で, 簡易かつ効果的に高密度微調整を行うことで, モデル品質を向上させる2つの手法を提案する。
さらに,畳み込みによるトランスポーザブル2:4マスクの計算と,GPU L2キャッシュミスの低減によるゲートアクティベーション機能の高速化という2つの効果的なトレーニング手法を考案した。
実験により, 異なる2:4のトレーニング手法で複数のトランスフォーマーにおいて, それらの組み合わせが最高の性能に到達し, 実際のアクセラレーションはトランスフォーマーブロックの異なる形状で観測できることがわかった。
関連論文リスト
- Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。
既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。
本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:45:01Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。
実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:55:48Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view
Reconstruction [95.37644907940857]
我々はNeuS2と呼ばれる高速な神経表面再構成手法を提案する。
NeuS2は、再構成品質を損なうことなく、加速度の2桁の精度向上を実現している。
本研究では,動的シーンの高速トレーニングのための手法を拡張し,インクリメンタルトレーニング戦略と新たなグローバルトランスフォーメーション予測コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-12-10T07:19:43Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - BiT: Robustly Binarized Multi-distilled Transformer [36.06192421902272]
実測精度の高いバイナライズトランスフォーマーモデルを開発し,5.9%の精度で完全精度のBERTベースラインにアプローチする。
これらのアプローチにより、事実上の精度で完全に双対化されたトランスフォーマーモデルが5.9%の精度で完全精度のBERTベースラインに近づいた。
論文 参考訳(メタデータ) (2022-05-25T19:01:54Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。