Fugu-MT 論文翻訳(概要): Accelerating Transformer Pre-Training with 2:4 Sparsity

論文の概要: Accelerating Transformer Pre-Training with 2:4 Sparsity

arxiv url: http://arxiv.org/abs/2404.01847v1
Date: Tue, 2 Apr 2024 11:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 16:49:07.445048
Title: Accelerating Transformer Pre-Training with 2:4 Sparsity
Title（参考訳）: 2:4間隔での変圧器事前訓練の高速化
Authors: Yuezhou Hu, Kang Zhao, Weiyu Huang, Jianfei Chen, Jun Zhu,
Abstract要約: NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。本稿では,2:4の異なるトレーニング手法において,複数のトランスフォーマー上での手法の組み合わせが最高の性能に達することを示す。
参考スコア（独自算出の注目度）: 19.64391647966267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large Transformers is slow, but recent innovations on GPU architecture gives us an advantage. NVIDIA Ampere GPUs can execute a fine-grained 2:4 sparse matrix multiplication twice as fast as its dense equivalent. In the light of this property, we comprehensively investigate the feasibility of accelerating feed-forward networks (FFNs) of Transformers in pre-training. First, we define a "flip rate" to monitor the stability of a 2:4 training process. Utilizing this metric, we suggest two techniques to preserve accuracy: to modify the sparse-refined straight-through estimator by applying the mask decay term on gradients, and to enhance the model's quality by a simple yet effective dense fine-tuning procedure near the end of pre-training. Besides, we devise two effective techniques to practically accelerate training: to calculate transposable 2:4 mask by convolution, and to accelerate gated activation functions by reducing GPU L2 cache miss. Experiments show that a combination of our methods reaches the best performance on multiple Transformers among different 2:4 training methods, while actual acceleration can be observed on different shapes of Transformer block.
Abstract（参考訳）: 大きなトランスフォーマーのトレーニングは遅いが、GPUアーキテクチャに関する最近のイノベーションは、私たちに利点を与えてくれる。 NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。この特性から,トランスフォーマーのフィードフォワードネットワーク(FFN)の事前学習における実現可能性について包括的に検討する。まず、2:4のトレーニングプロセスの安定性を監視するために「フリップ率」を定義します。本手法を応用して, グラデーションにマスク減衰項を適用し, スパース精製ストレートスルー推定器を改良し, プレトレーニング終了付近で, 簡易かつ効果的に高密度微調整を行うことで, モデル品質を向上させる2つの手法を提案する。さらに,畳み込みによるトランスポーザブル2:4マスクの計算と,GPU L2キャッシュミスの低減によるゲートアクティベーション機能の高速化という2つの効果的なトレーニング手法を考案した。実験により, 異なる2:4のトレーニング手法で複数のトランスフォーマーにおいて, それらの組み合わせが最高の性能に到達し, 実際のアクセラレーションはトランスフォーマーブロックの異なる形状で観測できることがわかった。

関連論文リスト

TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。 TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。 TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文参考訳（メタデータ） (2025-11-10T17:45:09Z)
GradES: Significantly Faster Training in Transformers with Gradient-Based Early Stopping [9.8335797454886]
早期停止はグローバルなバリデーション損失を監視し、すべてのパラメータ更新を同時に停止する。 textitGradESは、トランスフォーマーコンポーネント内で動作可能な、新しい勾配ベースの早期停止アプローチである。 textitGradESはトレーニング時間を1.57--7.22$times$で高速化すると同時に、オーバーフィッティングの早期防止による一般化を同時に強化する。
論文参考訳（メタデータ） (2025-09-01T23:51:12Z)
A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。
論文参考訳（メタデータ） (2024-09-13T08:29:36Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文参考訳（メタデータ） (2023-06-21T02:45:01Z)
MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-25T09:50:54Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文参考訳（メタデータ） (2023-05-18T05:55:48Z)
Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文参考訳（メタデータ） (2023-01-09T18:50:03Z)
NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction [95.37644907940857]
我々はNeuS2と呼ばれる高速な神経表面再構成手法を提案する。 NeuS2は、再構成品質を損なうことなく、加速度の2桁の精度向上を実現している。本研究では,動的シーンの高速トレーニングのための手法を拡張し,インクリメンタルトレーニング戦略と新たなグローバルトランスフォーメーション予測コンポーネントを提案する。
論文参考訳（メタデータ） (2022-12-10T07:19:43Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。 Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (2021-09-17T17:50:39Z)
Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文参考訳（メタデータ） (2021-09-16T04:12:51Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。