論文の概要: FAST: DNN Training Under Variable Precision Block Floating Point with
Stochastic Rounding
- arxiv url: http://arxiv.org/abs/2110.15456v1
- Date: Thu, 28 Oct 2021 22:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 23:57:01.820257
- Title: FAST: DNN Training Under Variable Precision Block Floating Point with
Stochastic Rounding
- Title(参考訳): FAST:確率ラウンドリングによる可変精度ブロック浮動点下でのDNNトレーニング
- Authors: Sai Qian Zhang, Bradley McDanel, H.T. Kung
- Abstract要約: ブロック浮動小数点(BFP)はディープニューラルネットワーク(DNN)トレーニングの量子化を効率的にサポートする。
重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
- 参考スコア(独自算出の注目度): 11.820523621760255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block Floating Point (BFP) can efficiently support quantization for Deep
Neural Network (DNN) training by providing a wide dynamic range via a shared
exponent across a group of values. In this paper, we propose a Fast First,
Accurate Second Training (FAST) system for DNNs, where the weights,
activations, and gradients are represented in BFP. FAST supports matrix
multiplication with variable precision BFP input operands, enabling incremental
increases in DNN precision throughout training. By increasing the BFP precision
across both training iterations and DNN layers, FAST can greatly shorten the
training time while reducing overall hardware resource usage. Our FAST
Multipler-Accumulator (fMAC) supports dot product computations under multiple
BFP precisions. We validate our FAST system on multiple DNNs with different
datasets, demonstrating a 2-6$\times$ speedup in training on a single-chip
platform over prior work based on \textbf{mixed-precision or block} floating
point number systems while achieving similar performance in validation
accuracy.
- Abstract(参考訳): ブロック浮動小数点(bfp)は、複数の値の共有指数を介して広いダイナミックレンジを提供することにより、ディープニューラルネットワーク(dnn)トレーニングの量子化を効率的に支援することができる。
本稿では,重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
FASTは、可変精度のBFP入力オペランドによる行列乗算をサポートし、トレーニングを通してDNN精度の漸増を可能にする。
トレーニングイテレーションとDNNレイヤの両方でBFP精度を向上することにより、FASTは、ハードウェアリソース全体の使用量を削減しながら、トレーニング時間を大幅に短縮することができる。
FAST Multir-Accumulator (fMAC) は複数のBFP精度でドット積計算をサポートする。
異なるデータセットを持つ複数のdnn上で高速システムを検証し、検証精度で同様の性能を達成しながら、以前の作業よりもシングルチッププラットフォーム上でのトレーニングにおける2-6$\times$ speedupを実証した。
関連論文リスト
- BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices [14.536949788395837]
ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
論文 参考訳(メタデータ) (2024-09-25T17:03:49Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training
and Inference [4.386709201336175]
ハードウェア近似は、推論加速器の資源効率向上に有効であることを示した。
本稿では,擬似近似乗算器を用いたトレーニング推論を高速に評価できるオープンソースのフレームワークであるApproxTrainを提案する。
論文 参考訳(メタデータ) (2022-09-09T07:42:05Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support [8.596477111386083]
本稿では,複数のBFP精度を活用してトレーニングを高速化するアルゴリズムに基づく。
我々はFlexBlockと呼ばれる3つの異なるBFP精度モードをサポートするフレキシブルDNNトレーニングアクセラレータを開発した。
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-13T15:05:34Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。