論文の概要: TensorDash: Exploiting Sparsity to Accelerate Deep Neural Network
Training and Inference
- arxiv url: http://arxiv.org/abs/2009.00748v1
- Date: Tue, 1 Sep 2020 23:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 02:04:33.625119
- Title: TensorDash: Exploiting Sparsity to Accelerate Deep Neural Network
Training and Inference
- Title(参考訳): TensorDash: 深層ニューラルネットワークトレーニングと推論を加速するスパシティの爆発
- Authors: Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Omar Mohamed Awad, Gennady
Pekhimenko, Jorge Albericio, and Andreas Moshovos
- Abstract要約: Dashは、データ並列MACユニットが入力オペランドストリームの空間性を活用するためのハードウェアレベルのテクニックである。
ディープラーニングのためのハードウェアアクセラレータを構成するために使用すると、Dashはトレーニングプロセスを高速化し、エネルギー効率も向上する。
- 参考スコア(独自算出の注目度): 3.238873941995477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TensorDash is a hardware level technique for enabling data-parallel MAC units
to take advantage of sparsity in their input operand streams. When used to
compose a hardware accelerator for deep learning, TensorDash can speedup the
training process while also increasing energy efficiency. TensorDash combines a
low-cost, sparse input operand interconnect comprising an 8-input multiplexer
per multiplier input, with an area-efficient hardware scheduler. While the
interconnect allows a very limited set of movements per operand, the scheduler
can effectively extract sparsity when it is present in the activations, weights
or gradients of neural networks. Over a wide set of models covering various
applications, TensorDash accelerates the training process by $1.95{\times}$
while being $1.89\times$ more energy-efficient, $1.6\times$ more energy
efficient when taking on-chip and off-chip memory accesses into account. While
TensorDash works with any datatype, we demonstrate it with both
single-precision floating-point units and bfloat16.
- Abstract(参考訳): TensorDash(テンソルダッシュ)は、データ並列MACユニットが入力オペランドストリームの空間性を利用することを可能にするハードウェアレベル技術である。
ディープラーニングのためのハードウェアアクセラレータを構成する場合、TensorDashはトレーニングプロセスを高速化し、エネルギー効率も向上する。
TensorDashは、マルチプライヤ入力当たりの8入力多重化器と、面積効率の良いハードウェアスケジューラを組み合わせた低コストでスパースな入力オペランド相互接続である。
インターコネクトはオペランド毎に非常に限られた動きを許容するが、スケジューラは、ニューラルネットワークのアクティベーション、重み、勾配に存在するとき、効果的に空間を抽出できる。
様々なアプリケーションをカバーする広範囲のモデルにおいて、TensorDashはトレーニングプロセスを1.95{\times}$で加速し、さらにエネルギー効率が1.89\times$1.6\times$オンチップとオフチップメモリアクセスを考慮に入れている。
TensorDashはどんなデータタイプでも動作しますが、単精度浮動小数点ユニットとbfloat16でそれを実証します。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - Training for temporal sparsity in deep neural networks, application in
video processing [0.30458514384586394]
アクティベーション・スパシティは、スパシティを意識したニューラルネットワークアクセラレーターにおける計算効率とリソース利用を改善する。
デルタ活性化層(Delta Activation Layer)と呼ばれる新しいレイヤを導入し、トレーニング中のアクティベーションの時間的間隔を促進する。
より長期トレーニング後のモデル精度の回復を可能とし, ほぼ3倍のアクティベーション間隔の改善を報告した。
論文 参考訳(メタデータ) (2021-07-15T13:17:11Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。