論文の概要: Performance Analysis of DNN Inference/Training with Convolution and
non-Convolution Operations
- arxiv url: http://arxiv.org/abs/2306.16767v1
- Date: Thu, 29 Jun 2023 08:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:19:37.040241
- Title: Performance Analysis of DNN Inference/Training with Convolution and
non-Convolution Operations
- Title(参考訳): 畳み込み・非畳み込み操作によるDNN推論・訓練の性能解析
- Authors: Hadi Esmaeilzadeh, Soroush Ghodrati, Andrew B. Kahng, Sean Kinzer,
Susmita Dey Manasi, Sachin S. Sapatnekar, and Zhiang Wang
- Abstract要約: 本研究は、ASICベースの一般的なハードウェアアクセラレーションプラットフォームのための新しいパフォーマンス分析フレームワーク、SimDITを提案する。
SimDITはCNN推論とトレーニングの両方の畳み込みと非畳み込み操作を包括的にカバーしている。
SimDITはResNet-50推論のための一般的な静的リソース割り当てよりも18倍の性能向上を実現している。
- 参考スコア(独自算出の注目度): 5.647410731290209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's performance analysis frameworks for deep learning accelerators suffer
from two significant limitations. First, although modern convolutional neural
network (CNNs) consist of many types of layers other than convolution,
especially during training, these frameworks largely focus on convolution
layers only. Second, these frameworks are generally targeted towards inference,
and lack support for training operations. This work proposes a novel
performance analysis framework, SimDIT, for general ASIC-based systolic
hardware accelerator platforms. The modeling effort of SimDIT comprehensively
covers convolution and non-convolution operations of both CNN inference and
training on a highly parameterizable hardware substrate. SimDIT is integrated
with a backend silicon implementation flow and provides detailed end-to-end
performance statistics (i.e., data access cost, cycle counts, energy, and
power) for executing CNN inference and training workloads. SimDIT-enabled
performance analysis reveals that on a 64X64 processing array, non-convolution
operations constitute 59.5% of total runtime for ResNet-50 training workload.
In addition, by optimally distributing available off-chip DRAM bandwidth and
on-chip SRAM resources, SimDIT achieves 18X performance improvement over a
generic static resource allocation for ResNet-50 inference.
- Abstract(参考訳): 今日のディープラーニングアクセラレータのパフォーマンス分析フレームワークには、2つの大きな制限がある。
第一に、現代の畳み込みニューラルネットワーク(cnns)は畳み込み以外の多くの種類の層で構成されており、特にトレーニング中は、これらのフレームワークは畳み込み層のみに焦点を当てている。
第二に、これらのフレームワークは一般的に推論をターゲットとしており、トレーニング操作のサポートがない。
本研究は、ASICベースの一般的なハードウェアアクセラレーションプラットフォームのための新しいパフォーマンス分析フレームワーク、SimDITを提案する。
SimDITのモデリングは、CNN推論と高度にパラメータ化可能なハードウェア基板上でのトレーニングの両方の畳み込みと非畳み込み操作を包括的にカバーしている。
SimDITはバックエンドのシリコン実装フローと統合されており、CNN推論およびトレーニングワークロードを実行するための詳細なエンドツーエンドのパフォーマンス統計(データアクセスコスト、サイクルカウント、エネルギ、パワー)を提供する。
SimDIT対応のパフォーマンス分析によると、64X64の処理アレイでは、ResNet-50トレーニングワークロード全体の59.5%が非畳み込み操作である。
さらに、利用可能なオフチップDRAM帯域とオンチップSRAMリソースを最適に分散することにより、ResNet-50推論のための汎用静的リソース割り当てよりも18倍の性能向上を実現している。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware
Accelerators [12.599871451119538]
HyDRATEは、ディープニューラルネット(DNN)と超次元(HD)コンピューティングアクセラレータを組み合わせることで、エッジでリアルタイムな再構成を行うことができる。
本稿では,アルゴリズム,訓練された量子化モデル生成,および乗算累積のない特徴抽出器の性能について述べる。
降下勾配のバックプロパゲーションを伴わないフィードフォワードHD分類器のみをリトレーニングすることで、フィールドにおける再構成性を実現する。
論文 参考訳(メタデータ) (2022-06-10T14:08:41Z) - dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。
我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。
大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文 参考訳(メタデータ) (2022-05-05T07:15:25Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - TxSim:Modeling Training of Deep Neural Networks on Resistive Crossbar
Systems [3.1887081453726136]
クロスバーベースの計算は、様々なデバイスと回路レベルの非理想性のために大きな課題に直面している。
我々は、クロスバーベースハードウェア上でDNNトレーニングを機能的に評価する高速でカスタマイズ可能なモデリングフレームワークであるTxSimを提案する。
論文 参考訳(メタデータ) (2020-02-25T19:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。