論文の概要: ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training
and Inference
- arxiv url: http://arxiv.org/abs/2209.04161v1
- Date: Fri, 9 Sep 2022 07:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:29:56.975717
- Title: ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training
and Inference
- Title(参考訳): ApproxTrain: DNNトレーニングと推論のための近似乗算器の高速シミュレーション
- Authors: Jing Gong, Hassaan Saadat, Hasindu Gamaarachchi, Haris Javaid, Xiaobo
Sharon Hu, Sri Parameswaran
- Abstract要約: ハードウェア近似は、推論加速器の資源効率向上に有効であることを示した。
本稿では,擬似近似乗算器を用いたトレーニング推論を高速に評価できるオープンソースのフレームワークであるApproxTrainを提案する。
- 参考スコア(独自算出の注目度): 4.386709201336175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge training of Deep Neural Networks (DNNs) is a desirable goal for
continuous learning; however, it is hindered by the enormous computational
power required by training. Hardware approximate multipliers have shown their
effectiveness for gaining resource-efficiency in DNN inference accelerators;
however, training with approximate multipliers is largely unexplored. To build
resource efficient accelerators with approximate multipliers supporting DNN
training, a thorough evaluation of training convergence and accuracy for
different DNN architectures and different approximate multipliers is needed.
This paper presents ApproxTrain, an open-source framework that allows fast
evaluation of DNN training and inference using simulated approximate
multipliers. ApproxTrain is as user-friendly as TensorFlow (TF) and requires
only a high-level description of a DNN architecture along with C/C++ functional
models of the approximate multiplier. We improve the speed of the simulation at
the multiplier level by using a novel LUT-based approximate floating-point (FP)
multiplier simulator on GPU (AMSim). ApproxTrain leverages CUDA and efficiently
integrates AMSim into the TensorFlow library, in order to overcome the absence
of native hardware approximate multiplier in commercial GPUs. We use
ApproxTrain to evaluate the convergence and accuracy of DNN training with
approximate multipliers for small and large datasets (including ImageNet) using
LeNets and ResNets architectures. The evaluations demonstrate similar
convergence behavior and negligible change in test accuracy compared to FP32
and bfloat16 multipliers. Compared to CPU-based approximate multiplier
simulations in training and inference, the GPU-accelerated ApproxTrain is more
than 2500x faster. Based on highly optimized closed-source cuDNN/cuBLAS
libraries with native hardware multipliers, the original TensorFlow is only 8x
faster than ApproxTrain.
- Abstract(参考訳): Deep Neural Networks(DNN)のエッジトレーニングは、継続的学習の望ましい目標であるが、トレーニングに必要な膨大な計算能力によって妨げられている。
ハードウェア近似乗算器は、dnn推論加速器の資源効率を向上させる効果を示しているが、近似乗算器を用いたトレーニングはほとんど未検討である。
DNN訓練を支援する近似乗算器を備えた資源効率の高い加速器を構築するには、異なるDNNアーキテクチャと異なる近似乗算器の訓練収束度と精度を徹底的に評価する必要がある。
本稿では,シミュレーション近似乗算器を用いたdnnトレーニングと推論の高速評価を可能にする,オープンソースのフレームワークであるapproxtrainを提案する。
ApproxTrainはTensorFlow(TF)と同じくらいユーザフレンドリで、近似乗算器のC/C++関数モデルとともに、DNNアーキテクチャの高レベルな記述のみを必要とする。
本稿では,新しいlutベース近似浮動小数点(fp)乗算シミュレータ(amsim)を用いて,乗算レベルでのシミュレーションの高速化を行う。
ApproxTrainはCUDAを活用して、商用GPUにおけるネイティブハードウェア近似乗算器の欠如を克服するため、AMSimをTensorFlowライブラリに効率的に統合する。
我々はApproxTrainを用いて、LeNetsとResNetsアーキテクチャを用いて、小規模および大規模データセット(ImageNetを含む)の近似乗算器を用いてDNNトレーニングの収束と精度を評価する。
その結果, FP32およびbfloat16乗算器と比較して, 同様の収束挙動とテスト精度の変化が認められた。
トレーニングと推論におけるCPUベースの近似乗算器シミュレーションと比較すると、GPUアクセラレーションされたApproxTrainは2500倍以上高速である。
ネイティブハードウェア乗算器を備えた高度に最適化されたクローズドソースのcuDNN/cuBLASライブラリをベースとして、オリジナルのTensorFlowは、ApproxTrainの8倍高速である。
関連論文リスト
- Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - AdaPT: Fast Emulation of Approximate DNN Accelerators in PyTorch [4.445835362642506]
我々は PyTorch を拡張した高速エミュレーションフレームワーク AdaPT を提案する。
ビット幅の異なる多数の近似乗算器に対して, CNN, LSTM, GANを含むいくつかのDNNモデルおよびアプリケーションフィールド上でのフレームワークの評価を行った。
その結果、近似的な再学習からかなりの誤差回復と、ベースライン近似実装に関する推論時間を最大53.9倍に短縮した。
論文 参考訳(メタデータ) (2022-03-08T13:31:16Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - A Meta-Learning Approach to the Optimal Power Flow Problem Under
Topology Reconfigurations [69.73803123972297]
メタラーニング(MTL)アプローチを用いて訓練されたDNNベースのOPF予測器を提案する。
開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。
論文 参考訳(メタデータ) (2020-12-21T17:39:51Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - TxSim:Modeling Training of Deep Neural Networks on Resistive Crossbar
Systems [3.1887081453726136]
クロスバーベースの計算は、様々なデバイスと回路レベルの非理想性のために大きな課題に直面している。
我々は、クロスバーベースハードウェア上でDNNトレーニングを機能的に評価する高速でカスタマイズ可能なモデリングフレームワークであるTxSimを提案する。
論文 参考訳(メタデータ) (2020-02-25T19:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。