論文の概要: Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs
- arxiv url: http://arxiv.org/abs/2006.09049v1
- Date: Tue, 16 Jun 2020 10:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:45:24.370221
- Title: Multi-Precision Policy Enforced Training (MuPPET): A precision-switching
strategy for quantised fixed-point training of CNNs
- Title(参考訳): MuPPET(Multi-Precision Policy Enforceed Training) : CNNの定量定点トレーニングのための精度切替戦略
- Authors: Aditya Rajagopal, Diederik Adriaan Vink, Stylianos I. Venieris,
Christos-Savvas Bouganis
- Abstract要約: 大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされる。
この研究は、複数の精度を利用するマルチレベルアプローチを採用することで、定量化トレーニングの境界を押し上げる。
MuPPETは、トレーニング時のスピードアップを最大1.84$times$、ネットワーク全体の平均スピードアップを1.58$times$とすることで、通常の完全精度トレーニングと同じ精度を達成する。
- 参考スコア(独自算出の注目度): 13.83645579871775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale convolutional neural networks (CNNs) suffer from very long
training times, spanning from hours to weeks, limiting the productivity and
experimentation of deep learning practitioners. As networks grow in size and
complexity, training time can be reduced through low-precision data
representations and computations. However, in doing so the final accuracy
suffers due to the problem of vanishing gradients. Existing state-of-the-art
methods combat this issue by means of a mixed-precision approach utilising two
different precision levels, FP32 (32-bit floating-point) and FP16/FP8
(16-/8-bit floating-point), leveraging the hardware support of recent GPU
architectures for FP16 operations to obtain performance gains. This work pushes
the boundary of quantised training by employing a multilevel optimisation
approach that utilises multiple precisions including low-precision fixed-point
representations. The novel training strategy, MuPPET, combines the use of
multiple number representation regimes together with a precision-switching
mechanism that decides at run time the transition point between precision
regimes. Overall, the proposed strategy tailors the training process to the
hardware-level capabilities of the target hardware architecture and yields
improvements in training time and energy efficiency compared to
state-of-the-art approaches. Applying MuPPET on the training of AlexNet,
ResNet18 and GoogLeNet on ImageNet (ILSVRC12) and targeting an NVIDIA Turing
GPU, MuPPET achieves the same accuracy as standard full-precision training with
training-time speedup of up to 1.84$\times$ and an average speedup of
1.58$\times$ across the networks.
- Abstract(参考訳): 大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされており、ディープラーニング実践者の生産性と実験を制限している。
ネットワークのサイズと複雑さが大きくなるにつれて、低精度のデータ表現と計算によってトレーニング時間を短縮できる。
しかし、そのような場合、最終的な精度は勾配の消失の問題に悩まされる。
既存の最先端手法では、FP32(32ビット浮動小数点)とFP16/FP8(16ビット浮動小数点)の2つの異なる精度レベルを利用した混合精度アプローチでこの問題に対処し、最近のGPUアーキテクチャのハードウェアサポートを活用して性能向上を実現している。
この研究は、低精度の不動点表現を含む複数の精度を利用するマルチレベル最適化アプローチを用いることで、量子化トレーニングの境界を押し上げる。
新たなトレーニング戦略である MuPPET は、複数の表現規則の使用と、実行時に精度規則間の遷移点を決定する精度スイッチング機構を組み合わせる。
提案した戦略は、目標とするハードウェアアーキテクチャのハードウェアレベルの能力にトレーニングプロセスを調整し、最先端のアプローチと比較してトレーニング時間とエネルギー効率の改善をもたらす。
イメージネット(ILSVRC12)上のAlexNet、ResNet18、GoogLeNetのトレーニングにMuPPETを適用し、NVIDIA Turing GPUをターゲットにしたMuPPETは、トレーニングタイムの最大1.84$\times$、ネットワーク全体の平均スピードアップ1.58$\times$と同じ精度を達成している。
関連論文リスト
- Efficient On-device Training via Gradient Filtering [14.484604762427717]
デバイス上でのCNNモデルトレーニングを可能にする新しい勾配フィルタリング手法を提案する。
我々のアプローチは勾配写像の特異な要素が少ない特別な構造を生成する。
弊社のアプローチは、デバイス上でのトレーニングの大きな可能性を秘めた、新しい研究の方向性を開く。
論文 参考訳(メタデータ) (2023-01-01T02:33:03Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks [0.0]
本稿では,情報理論に基づく時間内精度スイッチングを用いた新しい量子化トレーニング戦略であるMARViNを紹介する。
我々は,AlexNet/ResNetの平均劣化精度を-0.075%に制限しながら,float32ベースと比較して平均1.86の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-28T16:57:05Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with
Quantization-Aware Training and Adaptive Parallelism [0.0]
FIXARはSW/HWの共同設計アプローチを用いて、初めて固定点データ型と算術単位を使用する。
量子アウェアトレーニング(QAT)は、アクティベーションの範囲に基づいてデータ精度を低減し、報酬の劣化を最小限に抑えるために再トレーニングを実行する。
FIXARはXilinx U50と25293.3のトレーニングスループット(IPS)と2638.0のIPS/W加速効率で実装された。
論文 参考訳(メタデータ) (2021-02-24T07:22:38Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。