論文の概要: Better Schedules for Low Precision Training of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2403.02243v1
- Date: Mon, 4 Mar 2024 17:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:59:06.947707
- Title: Better Schedules for Low Precision Training of Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークの低精度トレーニングのためのより良いスケジューリング
- Authors: Cameron R. Wolfe and Anastasios Kyrillidis
- Abstract要約: 周期的精度訓練(CPT)は、周期的スケジュールに従って、訓練を通しての精度を動的に調整する。
CPTはトレーニング効率が特に向上し、実際にDNNのパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 13.88763215392452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low precision training can significantly reduce the computational overhead of
training deep neural networks (DNNs). Though many such techniques exist, cyclic
precision training (CPT), which dynamically adjusts precision throughout
training according to a cyclic schedule, achieves particularly impressive
improvements in training efficiency, while actually improving DNN performance.
Existing CPT implementations take common learning rate schedules (e.g.,
cyclical cosine schedules) and use them for low precision training without
adequate comparisons to alternative scheduling options. We define a diverse
suite of CPT schedules and analyze their performance across a variety of DNN
training regimes, some of which are unexplored in the low precision training
literature (e.g., node classification with graph neural networks). From these
experiments, we discover alternative CPT schedules that offer further
improvements in training efficiency and model performance, as well as derive a
set of best practices for choosing CPT schedules. Going further, we find that a
correlation exists between model performance and training cost, and that
changing the underlying CPT schedule can control the tradeoff between these two
variables. To explain the direct correlation between model performance and
training cost, we draw a connection between quantized training and critical
learning periods, suggesting that aggressive quantization is a form of learning
impairment that can permanently damage model performance.
- Abstract(参考訳): 低精度トレーニングは、ディープニューラルネットワーク(DNN)のトレーニングの計算オーバーヘッドを大幅に削減する。
このような技術は多く存在するが、循環精度訓練(CPT)は、サイクルスケジュールに従ってトレーニング全体の精度を動的に調整し、DNN性能を実際に改善しながら、訓練効率を著しく改善する。
既存のCPT実装では、一般的な学習率スケジュール(例えば、サイクリックコサインスケジュール)を、代替のスケジューリングオプションと比較することなく、低精度のトレーニングに使用する。
我々は、CPTスケジュールの多種多様なセットを定義し、そのパフォーマンスを様々なDNNトレーニング体制で分析し、その一部は、低精度のトレーニング文献(例えば、グラフニューラルネットワークを用いたノード分類)で探索されていない。
これらの実験から,cptスケジュールを選択するためのベストプラクティスを導出するとともに,トレーニング効率とモデルパフォーマンスをさらに向上させる代替のcptスケジュールを見出した。
さらに、モデルの性能とトレーニングコストの間には相関関係が存在し、基礎となるCPTスケジュールの変更はこれらの2変数間のトレードオフを制御することができる。
モデル性能とトレーニングコストの直接相関性を説明するために,量子化訓練と臨界学習期間の関係を考察し,積極的な量子化はモデル性能を永久に損なう学習障害の一形態であることが示唆された。
関連論文リスト
- Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - LDP: Learnable Dynamic Precision for Efficient Deep Neural Network
Training and Inference [24.431074439663437]
Learnable Dynamic Precision (LDP) は、トレーニング中の時間的および空間的ダイナミックな精度スケジュールを自動的に学習するフレームワークである。
LDPは、訓練効率の点で、最先端(SOTA)の低精度DNN訓練技術より一貫して優れており、精度のトレードオフも達成している。
論文 参考訳(メタデータ) (2022-03-15T08:01:46Z) - AC/DC: Alternating Compressed/DeCompressed Training of Deep Neural
Networks [78.62086125399831]
本稿では、ディープニューラルネットワーク(DNN)のAC/DCトレーニング(Alternating Compressed/DeCompressed)と呼ばれる一般的なアプローチを提案する。
AC/DCは、類似の計算予算で既存のスパーストレーニング方法よりも精度が高い。
AC/DCの重要な特性は、密度とスパースモデルのコトレーニングが可能であり、トレーニングプロセスの終了時に正確なスパース・ダンスモデルペアが得られることである。
論文 参考訳(メタデータ) (2021-06-23T13:23:00Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - CPT: Efficient Deep Neural Network Training via Cyclic Precision [19.677029887330036]
低精度ディープニューラルネットワーク(DNN)トレーニングは、DNNのトレーニング時間/エネルギー効率を高めるための最も効果的なノブの1つであるため、大きな注目を集めている。
我々は、DNNの精度がDNNトレーニングの学習速度と類似している可能性を推察し、DNNトレーニングの時間/エネルギー効率をさらに高めるためのトレーニング軌道に沿った動的精度を提唱する。
論文 参考訳(メタデータ) (2021-01-25T02:56:18Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。