論文の概要: FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support
- arxiv url: http://arxiv.org/abs/2203.06673v1
- Date: Sun, 13 Mar 2022 15:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:16:28.380279
- Title: FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support
- Title(参考訳): FlexBlock:マルチモードブロック浮動小数点をサポートしたフレキシブルDNNトレーニングアクセラレータ
- Authors: Seock-Hwan Noh, Jahyun Koo, Seunghyun Lee, Jongse Park, Jaeha Kung
- Abstract要約: 本稿では,複数のBFP精度を活用してトレーニングを高速化するアルゴリズムに基づく。
我々はFlexBlockと呼ばれる3つの異なるBFP精度モードをサポートするフレキシブルDNNトレーニングアクセラレータを開発した。
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
- 参考スコア(独自算出の注目度): 8.596477111386083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks (DNNs) is a computationally expensive job,
which can take weeks or months even with high performance GPUs. As a remedy for
this challenge, community has started exploring the use of more efficient data
representations in the training process, e.g., block floating point (BFP).
However, prior work on BFP-based DNN accelerators rely on a specific BFP
representation making them less versatile. This paper builds upon an
algorithmic observation that we can accelerate the training by leveraging
multiple BFP precisions without compromising the finally achieved accuracy.
Backed up by this algorithmic opportunity, we develop a flexible DNN training
accelerator, dubbed FlexBlock, which supports three different BFP precision
modes, possibly different among activation, weight, and gradient tensors. While
several prior works proposed such multi-precision support for DNN accelerators,
not only do they focus only on the inference, but also their core utilization
is suboptimal at a fixed precision and specific layer types when the training
is considered. Instead, FlexBlock is designed in such a way that high core
utilization is achievable for i) various layer types, and ii) three BFP
precisions by mapping data in a hierarchical manner to its compute units. We
evaluate the effectiveness of FlexBlock architecture using well-known DNNs on
CIFAR, ImageNet and WMT14 datasets. As a result, training in FlexBlock
significantly improves the training speed by 1.5~5.3x and the energy efficiency
by 2.4~7.0x on average compared to other training accelerators and incurs
marginal accuracy loss compared to full-precision training.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のトレーニングは計算コストがかかる仕事であり、高性能GPUでも数週間から数ヶ月かかる。
この課題に対する対策として、コミュニティはトレーニングプロセスにおけるより効率的なデータ表現(例えばブロック浮動小数点(BFP))の使用を模索し始めた。
しかしながら、BFPベースのDNNアクセラレータに関する以前の研究は、特定のBFP表現に依存しており、より汎用性が低い。
本稿では,最終的な精度を損なうことなく,複数のBFP精度を活用することにより,トレーニングを高速化するアルゴリズムに基づく。
このアルゴリズムの機会に支えられ、FlexBlockと呼ばれるフレキシブルなDNNトレーニングアクセラレータを開発し、これは3つの異なるBFP精度モードをサポートし、おそらくアクティベーション、ウェイト、勾配テンソルが異なる。
いくつかの先行研究がdnnアクセラレータのマルチ精度サポートを提案しているが、それらは推論のみに焦点を当てているだけでなく、トレーニングを考慮すれば、そのコア利用は固定精度と特定の層タイプにおいて最適である。
代わりにFlexBlockは、高いコア利用が達成可能な方法で設計されている。
一 様々な層の種類、及び
二 データをその計算単位に階層的にマッピングすることによる三つのbfp精度
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
その結果、flexblockでのトレーニングは、トレーニング速度を1.5~5.3倍、エネルギー効率を2.4~7.0倍向上させ、全精度トレーニングに比べて限界精度の損失を生じさせる。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices [14.536949788395837]
ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
論文 参考訳(メタデータ) (2024-09-25T17:03:49Z) - Enhancing Fast Feed Forward Networks with Load Balancing and a Master Leaf Node [49.08777822540483]
高速フィードフォワードネットワーク(FFF)は、入力空間の異なる領域が広いネットワークのニューロンの異なるサブセットを活性化する観察を利用する。
本稿では,FFFアーキテクチャにロードバランシングとマスタリーフ技術を導入し,性能向上とトレーニングプロセスの簡素化を図る。
論文 参考訳(メタデータ) (2024-05-27T05:06:24Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed)
Neural Networks [15.188785164091987]
後方伝播(BP)は、ニューラルネットワークトレーニングの勾配を計算するために広く使われている。
自動微分をサポートするハードウェアやソフトウェアリソースが不足しているため、エッジデバイス上でBPを実装するのは難しい。
本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする,完全にBPフリーなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T23:56:50Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - FAST: DNN Training Under Variable Precision Block Floating Point with
Stochastic Rounding [11.820523621760255]
ブロック浮動小数点(BFP)はディープニューラルネットワーク(DNN)トレーニングの量子化を効率的にサポートする。
重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
論文 参考訳(メタデータ) (2021-10-28T22:24:33Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。