論文の概要: Efficient DNN Training with Knowledge-Guided Layer Freezing
- arxiv url: http://arxiv.org/abs/2201.06227v1
- Date: Mon, 17 Jan 2022 06:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 06:15:26.165262
- Title: Efficient DNN Training with Knowledge-Guided Layer Freezing
- Title(参考訳): 知識誘導層凍結による効率的なDNN訓練
- Authors: Yiding Wang, Decang Sun, Kai Chen, Fan Lai, Mosharaf Chowdhury
- Abstract要約: 深層ニューラルネットワーク(DNN)のトレーニングには時間を要する。
本稿では、DNN層凍結による計算と通信をスキップすることで、さらに一歩進める。
KGTは精度を犠牲にすることなく19%-43%のトレーニングスピードアップを達成した。
- 参考スコア(独自算出の注目度): 9.934418641613105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training deep neural networks (DNNs) is time-consuming. While most existing
solutions try to overlap/schedule computation and communication for efficient
training, this paper goes one step further by skipping computing and
communication through DNN layer freezing. Our key insight is that the training
progress of internal DNN layers differs significantly, and front layers often
become well-trained much earlier than deep layers. To explore this, we first
introduce the notion of training plasticity to quantify the training progress
of internal DNN layers. Then we design KGT, a knowledge-guided DNN training
system that employs semantic knowledge from a reference model to accurately
evaluate individual layers' training plasticity and safely freeze the converged
ones, saving their corresponding backward computation and communication. Our
reference model is generated on the fly using quantization techniques and runs
forward operations asynchronously on available CPUs to minimize the overhead.
In addition, KGT caches the intermediate outputs of the frozen layers with
prefetching to further skip the forward computation. Our implementation and
testbed experiments with popular vision and language models show that KGT
achieves 19%-43% training speedup w.r.t. the state-of-the-art without
sacrificing accuracy.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)のトレーニングには時間を要する。
既存のほとんどのソリューションは、効率的なトレーニングのために計算とスケジューリングの重複と通信を試みているが、本論文は、DNN層凍結による計算と通信をスキップすることで一歩進める。
私たちの重要な洞察は、内部dnn層のトレーニングの進捗が著しく異なり、フロント層が深い層よりもずっと早くトレーニングされることが多いということです。
そこで我々はまず,内部DNN層の学習過程を定量化するために,塑性のトレーニングの概念を導入する。
そこで我々は,知識誘導型DNN訓練システムKGTを設計し,各レイヤの学習可塑性を正確に評価し,収束したものを安全に凍結し,対応する後方計算と通信を省く。
我々の参照モデルは、量子化技術を用いてオンザフライで生成され、利用可能なCPU上で非同期に前方操作を実行し、オーバーヘッドを最小限に抑える。
さらに、KGTは凍結した層の中間出力をプリフェッチでキャッシュし、フォワード計算をさらにスキップする。
一般的なビジョンと言語モデルを用いたテストベッド実験により、KGTは精度を犠牲にすることなく19%~43%のトレーニングスピードアップを達成した。
関連論文リスト
- Comparison between layer-to-layer network training and conventional
network training using Deep Convolutional Neural Networks [0.6853165736531939]
畳み込みニューラルネットワーク(CNN)は、データから特徴を抽出する効果のため、様々なアプリケーションで広く利用されている。
層間学習法を提案し,その性能を従来の訓練法と比較する。
実験の結果, 層間学習法は両モデルの従来の訓練法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-27T14:29:18Z) - SPIDE: A Purely Spike-based Method for Training Feedback Spiking Neural
Networks [56.35403810762512]
イベントベースの計算を伴うスパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアにおけるエネルギー効率の高い応用のために、脳にインスパイアされたモデルを約束している。
本研究では,最近提案されたトレーニング手法を拡張した平衡状態(SPIDE)に対するスパイクに基づく暗黙差分法について検討した。
論文 参考訳(メタデータ) (2023-02-01T04:22:59Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Going Deeper With Directly-Trained Larger Spiking Neural Networks [20.40894876501739]
スパイキングニューラルネットワーク(SNN)は、バイオユースブルな情報とイベント駆動信号処理のためのコーディングを約束している。
しかし、SNNのユニークな動作モードにより、従来のネットワークよりもトレーニングが困難になる。
CIF依存型バッチ正規化法(tpladBN)を提案する。
論文 参考訳(メタデータ) (2020-10-29T07:15:52Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。