Fugu-MT 論文翻訳(概要): DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator

論文の概要: DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator

arxiv url: http://arxiv.org/abs/2006.15103v1
Date: Fri, 26 Jun 2020 17:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 22:14:39.015086
Title: DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator
Title（参考訳）: DRACO:Systolic Accelerator上でのハードウェア利用の最適化とDNNの性能
Authors: Nandan Kumar Jha, Shreyas Ravishankar, Sparsh Mittal, Arvind Kaushik, Dipan Mandal, Mahesh Chandra
Abstract要約: 協調最適化(DRACO)を考慮したデータ再利用計算を提案する。 DRACOは、データフロー/マイクロアーキテクチャの変更を必要とせずに、メモリバウンドDNNのPE利用を改善する。従来の最適化手法とは異なり、DRACOは性能とエネルギー効率を最大化するだけでなく、DNNの予測性能も向上する。
参考スコア（独自算出の注目度）: 5.65116500037191
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The number of processing elements (PEs) in a fixed-sized systolic accelerator is well matched for large and compute-bound DNNs; whereas, memory-bound DNNs suffer from PE underutilization and fail to achieve peak performance and energy efficiency. To mitigate this, specialized dataflow and/or micro-architectural techniques have been proposed. However, due to the longer development cycle and the rapid pace of evolution in the deep learning fields, these hardware-based solutions can be obsolete and ineffective in dealing with PE underutilization for state-of-the-art DNNs. In this work, we address the challenge of PE underutilization at the algorithm front and propose data reuse aware co-optimization (DRACO). This improves the PE utilization of memory-bound DNNs without any additional need for dataflow/micro-architecture modifications. Furthermore, unlike the previous co-optimization methods, DRACO not only maximizes performance and energy efficiency but also improves the predictive performance of DNNs. To the best of our knowledge, DRACO is the first work that resolves the resource underutilization challenge at the algorithm level and demonstrates a trade-off between computational efficiency, PE utilization, and predictive performance of DNN. Compared to the state-of-the-art row stationary dataflow, DRACO achieves 41.8% and 42.6% improvement in average PE utilization and inference latency (respectively) with negligible loss in predictive performance in MobileNetV1 on a $64\times64$ systolic array. DRACO provides seminal insights for utilization-aware DNN design methodologies that can fully leverage the computation power of systolic array-based hardware accelerators.
Abstract（参考訳）: 固定サイズのシストリック加速器における処理要素(PE)の数は、大きくて計算バウンドなDNNとよく一致しているが、メモリバウンドなDNNはPEの未使用化に悩まされ、ピーク性能とエネルギー効率を達成できない。これを軽減するため、特殊データフローやマイクロアーキテクチャ技術が提案されている。しかし、より長い開発サイクルとディープラーニング分野の急速な進化のペースにより、これらのハードウェアベースのソリューションは時代遅れであり、最先端のDNNに対するPEの非利用を扱うのに有効ではない。本稿では,peのアルゴリズム面での活用の課題に対処し,データ再利用を考慮した協調最適化(draco)を提案する。これにより、データフロー/マイクロアーキテクチャの変更を必要とせずに、メモリバウンドDNNのPE利用が向上する。さらに,従来の共同最適化手法とは異なり,DRACOは性能とエネルギー効率を最大化するだけでなく,DNNの予測性能も向上する。我々の知る限り、DRACOはアルゴリズムレベルで資源未利用の課題を解決し、計算効率、PE利用率、DNNの予測性能のトレードオフを示す最初の研究である。最先端の行定常データフローと比較すると、DRACOは平均PE使用率と推論遅延(参照)が41.8%と42.6%向上し、6,4\times64$ systolic配列上でMobileNetV1の予測性能が低下した。 DRACOは、シリアルアレイベースのハードウェアアクセラレーションの計算能力を完全に活用できる、利用を意識したDNN設計手法に関する基礎的な洞察を提供する。

関連論文リスト

Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。 BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文参考訳（メタデータ） (2024-12-03T19:20:08Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T06:31:03Z)
Context-aware Multi-Model Object Detection for Diversely Heterogeneous Compute Systems [0.32634122554914]
ディープニューラルネットワーク(DNN)を用いた物体検出への1サイズ全アプローチは、計算資源の非効率な利用につながる。本稿では,動的に変化する文脈情報や計算制約に応じて,様々なDNNベースのODモデルから連続的に選択するShiftを提案する。提案手法は、最先端のGPUベースの単一モデルODアプローチと比較して、エネルギー使用率7.5倍、レイテンシ2.8倍の改善をもたらす。
論文参考訳（メタデータ） (2024-02-12T05:38:11Z)
Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision Quantization [1.0235078178220354]
本稿では, プルーニングと量子化を併用してハードウェアに配慮したディープニューラルネットワーク(DNN)の自動圧縮フレームワークを提案する。われわれのフレームワークはデータセットの平均エネルギー消費量を39%減らし、平均精度損失を1.7%減らし、最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2023-12-23T18:50:13Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。提案されたSIDNNは、幅広いOPFスキームと互換性がある。他のLearning-to-OPFスキームとシームレスに統合できる。
論文参考訳（メタデータ） (2021-03-27T00:45:23Z)
FSpiNN: An Optimization Framework for Memory- and Energy-Efficient Spiking Neural Networks [14.916996986290902]
スパイキングニューラルネットワーク(SNN)は、スパイクタイピング依存の可塑性(STDP)ルールのために教師なし学習機能を提供する。しかし、最先端のSNNは高い精度を達成するために大きなメモリフットプリントを必要とする。トレーニングおよび推論処理のためのメモリ効率とエネルギー効率のよいSNNを得るための最適化フレームワークFSpiNNを提案する。
論文参考訳（メタデータ） (2020-07-17T09:40:26Z)
ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。 DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。 14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文参考訳（メタデータ） (2020-03-25T07:54:42Z)
Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。その結果, 直接使用法と比較して計算時間を2～5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文参考訳（メタデータ） (2020-02-04T20:00:28Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。