Fugu-MT 論文翻訳(概要): ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training and Inference

論文の概要: ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training and Inference

arxiv url: http://arxiv.org/abs/2209.04161v1
Date: Fri, 9 Sep 2022 07:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-12 12:29:56.975717
Title: ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training and Inference
Title（参考訳）: ApproxTrain: DNNトレーニングと推論のための近似乗算器の高速シミュレーション
Authors: Jing Gong, Hassaan Saadat, Hasindu Gamaarachchi, Haris Javaid, Xiaobo Sharon Hu, Sri Parameswaran
Abstract要約: ハードウェア近似は、推論加速器の資源効率向上に有効であることを示した。本稿では,擬似近似乗算器を用いたトレーニング推論を高速に評価できるオープンソースのフレームワークであるApproxTrainを提案する。
参考スコア（独自算出の注目度）: 4.386709201336175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Edge training of Deep Neural Networks (DNNs) is a desirable goal for continuous learning; however, it is hindered by the enormous computational power required by training. Hardware approximate multipliers have shown their effectiveness for gaining resource-efficiency in DNN inference accelerators; however, training with approximate multipliers is largely unexplored. To build resource efficient accelerators with approximate multipliers supporting DNN training, a thorough evaluation of training convergence and accuracy for different DNN architectures and different approximate multipliers is needed. This paper presents ApproxTrain, an open-source framework that allows fast evaluation of DNN training and inference using simulated approximate multipliers. ApproxTrain is as user-friendly as TensorFlow (TF) and requires only a high-level description of a DNN architecture along with C/C++ functional models of the approximate multiplier. We improve the speed of the simulation at the multiplier level by using a novel LUT-based approximate floating-point (FP) multiplier simulator on GPU (AMSim). ApproxTrain leverages CUDA and efficiently integrates AMSim into the TensorFlow library, in order to overcome the absence of native hardware approximate multiplier in commercial GPUs. We use ApproxTrain to evaluate the convergence and accuracy of DNN training with approximate multipliers for small and large datasets (including ImageNet) using LeNets and ResNets architectures. The evaluations demonstrate similar convergence behavior and negligible change in test accuracy compared to FP32 and bfloat16 multipliers. Compared to CPU-based approximate multiplier simulations in training and inference, the GPU-accelerated ApproxTrain is more than 2500x faster. Based on highly optimized closed-source cuDNN/cuBLAS libraries with native hardware multipliers, the original TensorFlow is only 8x faster than ApproxTrain.
Abstract（参考訳）: Deep Neural Networks(DNN)のエッジトレーニングは、継続的学習の望ましい目標であるが、トレーニングに必要な膨大な計算能力によって妨げられている。ハードウェア近似乗算器は、dnn推論加速器の資源効率を向上させる効果を示しているが、近似乗算器を用いたトレーニングはほとんど未検討である。 DNN訓練を支援する近似乗算器を備えた資源効率の高い加速器を構築するには、異なるDNNアーキテクチャと異なる近似乗算器の訓練収束度と精度を徹底的に評価する必要がある。本稿では,シミュレーション近似乗算器を用いたdnnトレーニングと推論の高速評価を可能にする,オープンソースのフレームワークであるapproxtrainを提案する。 ApproxTrainはTensorFlow(TF)と同じくらいユーザフレンドリで、近似乗算器のC/C++関数モデルとともに、DNNアーキテクチャの高レベルな記述のみを必要とする。本稿では,新しいlutベース近似浮動小数点(fp)乗算シミュレータ(amsim)を用いて,乗算レベルでのシミュレーションの高速化を行う。 ApproxTrainはCUDAを活用して、商用GPUにおけるネイティブハードウェア近似乗算器の欠如を克服するため、AMSimをTensorFlowライブラリに効率的に統合する。我々はApproxTrainを用いて、LeNetsとResNetsアーキテクチャを用いて、小規模および大規模データセット(ImageNetを含む)の近似乗算器を用いてDNNトレーニングの収束と精度を評価する。その結果, FP32およびbfloat16乗算器と比較して, 同様の収束挙動とテスト精度の変化が認められた。トレーニングと推論におけるCPUベースの近似乗算器シミュレーションと比較すると、GPUアクセラレーションされたApproxTrainは2500倍以上高速である。ネイティブハードウェア乗算器を備えた高度に最適化されたクローズドソースのcuDNN/cuBLASライブラリをベースとして、オリジナルのTensorFlowは、ApproxTrainの8倍高速である。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文参考訳（メタデータ） (2023-11-07T23:18:35Z)
Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文参考訳（メタデータ） (2023-09-22T17:26:19Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。 CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文参考訳（メタデータ） (2022-10-10T10:05:00Z)
AdaPT: Fast Emulation of Approximate DNN Accelerators in PyTorch [4.445835362642506]
我々は PyTorch を拡張した高速エミュレーションフレームワーク AdaPT を提案する。ビット幅の異なる多数の近似乗算器に対して, CNN, LSTM, GANを含むいくつかのDNNモデルおよびアプリケーションフィールド上でのフレームワークの評価を行った。その結果、近似的な再学習からかなりの誤差回復と、ベースライン近似実装に関する推論時間を最大53.9倍に短縮した。
論文参考訳（メタデータ） (2022-03-08T13:31:16Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
A Meta-Learning Approach to the Optimal Power Flow Problem Under Topology Reconfigurations [69.73803123972297]
メタラーニング(MTL)アプローチを用いて訓練されたDNNベースのOPF予測器を提案する。開発したOPF予測器はベンチマークIEEEバスシステムを用いてシミュレーションにより検証される。
論文参考訳（メタデータ） (2020-12-21T17:39:51Z)
SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional Neural Networks Training [34.657942518465575]
畳み込みニューラルネットワーク(CNN)の訓練は通常、大量の計算資源を必要とする。そこで本論文では,SparseTrain を用いた CNN トレーニングの高速化について提案する。我々は,CNNを textitSparseTrain にマッピングする %a の単純なコンパイラを構築した。
論文参考訳（メタデータ） (2020-07-21T11:01:36Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
TxSim:Modeling Training of Deep Neural Networks on Resistive Crossbar Systems [3.1887081453726136]
クロスバーベースの計算は、様々なデバイスと回路レベルの非理想性のために大きな課題に直面している。我々は、クロスバーベースハードウェア上でDNNトレーニングを機能的に評価する高速でカスタマイズ可能なモデリングフレームワークであるTxSimを提案する。
論文参考訳（メタデータ） (2020-02-25T19:29:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。