論文の概要: Exploring the Benefit of Activation Sparsity in Pre-training
- arxiv url: http://arxiv.org/abs/2410.03440v1
- Date: Fri, 4 Oct 2024 13:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:19:23.240796
- Title: Exploring the Benefit of Activation Sparsity in Pre-training
- Title(参考訳): プレトレーニングにおけるアクティベーション・スパリティのメリットを探る
- Authors: Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou,
- Abstract要約: プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
- 参考スコア(独自算出の注目度): 117.25661020250658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformers inherently possess the characteristic of sparse activation, where only a small fraction of the neurons are activated for each token. While sparse activation has been explored through post-training methods, its potential in pre-training remains untapped. In this work, we first study how activation properties change during pre-training. Our examination reveals that Transformers exhibit sparse activation throughout the majority of the pre-training process while the activation correlation keeps evolving as training progresses. Leveraging this observation, we propose Switchable Sparse-Dense Learning (SSD). SSD adaptively switches between the Mixtures-of-Experts (MoE) based sparse training and the conventional dense training during the pre-training process, leveraging the efficiency of sparse training and avoiding the static activation correlation of sparse training. Compared to dense training, SSD achieves comparable performance with identical model size and reduces pre-training costs. Moreover, the models trained with SSD can be directly used as MoE models for sparse inference and achieve the same performance as dense models with up to $2\times$ faster inference speed. Codes are available at https://github.com/thunlp/moefication.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは本質的にスパース活性化の特徴を持ち、各トークンに対して少数のニューロンのみが活性化される。
スパース・アクティベーションはポスト・トレーニング法によって研究されているが、プレ・トレーニングの可能性は未解決のままである。
本研究では,まず,事前学習中に活性化特性がどう変化するかを検討する。
本研究により,トランスフォーマーは,トレーニングの進行とともに活性化相関が変化し続けながら,トレーニング前プロセスの大部分を通してスパースアクティベーションを示すことが明らかとなった。
そこで本研究では,Sparse-Dense Learning (SSD)を提案する。
SSDは、Mixtures-of-Experts (MoE)ベースのスパーストレーニングと事前トレーニング中の従来の密集トレーニングを適応的に切り替え、スパーストレーニングの効率を活用し、スパーストレーニングの静的アクティベーション相関を回避する。
高密度トレーニングと比較して、SSDは同じモデルサイズで同等のパフォーマンスを達成し、事前トレーニングコストを削減します。
さらに、SSDでトレーニングされたモデルは、スパース推論のMoEモデルとして直接使用することができ、最大2\times$高速推論速度の高密度モデルと同じパフォーマンスを達成することができる。
コードはhttps://github.com/thunlp/moefication.comで入手できる。
関連論文リスト
- Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - Enhancing Neural Training via a Correlated Dynamics Model [2.9302545029880394]
相関モード分解(CMD)は、パラメータ空間をグループにクラスタリングし、エポック間の同期動作を表示するアルゴリズムである。
トレーニングと同時に動作するように設計された効率的なCMDバリアントを導入する。
実験の結果,CMD は画像分類のコンパクトなモデル化のための最先端手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-20T18:22:49Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Training for temporal sparsity in deep neural networks, application in
video processing [0.30458514384586394]
アクティベーション・スパシティは、スパシティを意識したニューラルネットワークアクセラレーターにおける計算効率とリソース利用を改善する。
デルタ活性化層(Delta Activation Layer)と呼ばれる新しいレイヤを導入し、トレーニング中のアクティベーションの時間的間隔を促進する。
より長期トレーニング後のモデル精度の回復を可能とし, ほぼ3倍のアクティベーション間隔の改善を報告した。
論文 参考訳(メタデータ) (2021-07-15T13:17:11Z) - AC/DC: Alternating Compressed/DeCompressed Training of Deep Neural
Networks [78.62086125399831]
本稿では、ディープニューラルネットワーク(DNN)のAC/DCトレーニング(Alternating Compressed/DeCompressed)と呼ばれる一般的なアプローチを提案する。
AC/DCは、類似の計算予算で既存のスパーストレーニング方法よりも精度が高い。
AC/DCの重要な特性は、密度とスパースモデルのコトレーニングが可能であり、トレーニングプロセスの終了時に正確なスパース・ダンスモデルペアが得られることである。
論文 参考訳(メタデータ) (2021-06-23T13:23:00Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。