論文の概要: LightNorm: Area and Energy-Efficient Batch Normalization Hardware for
On-Device DNN Training
- arxiv url: http://arxiv.org/abs/2211.02686v1
- Date: Fri, 4 Nov 2022 18:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:51:43.241398
- Title: LightNorm: Area and Energy-Efficient Batch Normalization Hardware for
On-Device DNN Training
- Title(参考訳): LightNorm:オンデバイスDNNトレーニングのための領域とエネルギー効率の良いバッチ正規化ハードウェア
- Authors: Seock-Hwan Noh, Junsang Park, Dahoon Park, Jahyun Koo, Jeik Choi,
Jaeha Kung
- Abstract要約: 我々はLightNormという名前の非常に効率的なバッチ正規化とそのハードウェアモジュールを提案する。
より詳しくは、i)低ビット精度、i)レンジバッチ正規化、iii)ブロック浮動小数点の3つの近似手法を融合する。
- 参考スコア(独自算出の注目度): 0.31806743741013654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training early-stage deep neural networks (DNNs), generating
intermediate features via convolution or linear layers occupied most of the
execution time. Accordingly, extensive research has been done to reduce the
computational burden of the convolution or linear layers. In recent
mobile-friendly DNNs, however, the relative number of operations involved in
processing these layers has significantly reduced. As a result, the proportion
of the execution time of other layers, such as batch normalization layers, has
increased. Thus, in this work, we conduct a detailed analysis of the batch
normalization layer to efficiently reduce the runtime overhead in the batch
normalization process. Backed up by the thorough analysis, we present an
extremely efficient batch normalization, named LightNorm, and its associated
hardware module. In more detail, we fuse three approximation techniques that
are i) low bit-precision, ii) range batch normalization, and iii) block
floating point. All these approximate techniques are carefully utilized not
only to maintain the statistics of intermediate feature maps, but also to
minimize the off-chip memory accesses. By using the proposed LightNorm
hardware, we can achieve significant area and energy savings during the DNN
training without hurting the training accuracy. This makes the proposed
hardware a great candidate for the on-device training.
- Abstract(参考訳): 初期段階のディープニューラルネットワーク(DNN)のトレーニングでは、畳み込みや線形層による中間機能の生成が実行時間の大半を占めていた。
したがって、畳み込み層や線形層の計算負荷を軽減するために広範な研究が行われている。
しかし、最近のモバイルフレンドリーなDNNでは、これらのレイヤの処理に関わる操作数が大幅に減少している。
その結果、バッチ正規化層などの他のレイヤの実行時間の比率が増加した。
そこで本研究では,バッチ正規化プロセスのランタイムオーバーヘッドを効率的に低減するために,バッチ正規化層の詳細な解析を行う。
徹底的な分析によってバックアップされ、非常に効率的なバッチ正規化であるLightNormとそのハードウェアモジュールを紹介します。
もっと詳しく言えば 3つの近似技術を融合させます
i) ビット精度の低いもの
二 範囲バッチ正規化、及び
iii) ブロック浮動小数点。
これらの近似手法は、中間特徴写像の統計を維持するだけでなく、オフチップメモリアクセスを最小限に抑えるためにも慎重に利用される。
提案したLightNormハードウェアを使用することで,トレーニング精度を損なうことなく,DNNトレーニング中にかなりの面積と省エネを実現することができる。
これにより、提案されたハードウェアは、オンデバイストレーニングの優れた候補となる。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Towards Cheaper Inference in Deep Networks with Lower Bit-Width
Accumulators [25.100092698906437]
現在のハードウェアは依然として高精度なコア操作に依存している。
これは、これまでのところ、低精度のアキュムレータの使用が性能を著しく低下させたためである。
本稿では,12ドル(約1万2000円)の安価なアキュムレータを初めて活用するために,高品質DNNの訓練と微調整を行うための簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-01-25T11:46:01Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - Navigating Local Minima in Quantized Spiking Neural Networks [3.1351527202068445]
深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。
これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを使用してトレーニングする際の課題に直面している。
本稿では,コサインアニールLRスケジュールと重み非依存適応モーメント推定を併用したシステム評価を行った。
論文 参考訳(メタデータ) (2022-02-15T06:42:25Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。