論文の概要: EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators
- arxiv url: http://arxiv.org/abs/2202.02310v1
- Date: Fri, 4 Feb 2022 18:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 17:06:45.504413
- Title: EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators
- Title(参考訳): EcoFlow: 低消費電力ニューラルネットワークアクセラレータのための効率的な畳み込みデータフロー
- Authors: Lois Orosa, Skanda Koppula, Yaman Umuroglu, Konstantinos
Kanellopoulos, Juan Gomez-Luna, Michaela Blott, Kees Vissers, Onur Mutlu
- Abstract要約: 拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
- 参考スコア(独自算出の注目度): 12.223778147172107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dilated and transposed convolutions are widely used in modern convolutional
neural networks (CNNs). These kernels are used extensively during CNN training
and inference of applications such as image segmentation and high-resolution
image generation. Although these kernels have grown in popularity, they stress
current compute systems due to their high memory intensity, exascale compute
demands, and large energy consumption.
We find that commonly-used low-power CNN inference accelerators based on
spatial architectures are not optimized for both of these convolutional
kernels. Dilated and transposed convolutions introduce significant zero padding
when mapped to the underlying spatial architecture, significantly degrading
performance and energy efficiency. Existing approaches that address this issue
require significant design changes to the otherwise simple, efficient, and
well-adopted architectures used to compute direct convolutions.
To address this challenge, we propose EcoFlow, a new set of dataflows and
mapping algorithms for dilated and transposed convolutions. These algorithms
are tailored to execute efficiently on existing low-cost, small-scale spatial
architectures and requires minimal changes to the network-on-chip of existing
accelerators. EcoFlow eliminates zero padding through careful dataflow
orchestration and data mapping tailored to the spatial architecture. EcoFlow
enables flexible and high-performance transpose and dilated convolutions on
architectures that are otherwise optimized for CNN inference.
We evaluate the efficiency of EcoFlow on CNN training workloads and
Generative Adversarial Network (GAN) training workloads. Experiments in our new
cycle-accurate simulator show that EcoFlow 1) reduces end-to-end CNN training
time between 7-85%, and 2) improves end-to-end GAN training performance between
29-42%, compared to state-of-the-art CNN inference accelerators.
- Abstract(参考訳): 拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている。
これらのカーネルはcnnのトレーニングやイメージセグメンテーションや高解像度画像生成などのアプリケーションの推論に広く使われている。
これらのカーネルは人気を博しているが、メモリの強度、エクサスケールの計算要求、大きなエネルギー消費のために現在の計算システムを強調している。
空間構造に基づく低消費電力CNN推論アクセラレータは、これらの畳み込みカーネルの両方に最適化されていない。
拡張および転位した畳み込みは、下層の空間構造にマッピングされたときに大きなゼロパディングをもたらし、性能とエネルギー効率を著しく低下させる。
この問題に対処する既存のアプローチでは、直接畳み込みを計算するために使用される、単純で効率的でよく採用されたアーキテクチャに大きな設計変更が必要となる。
この課題に対処するため,我々は,拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるecoflowを提案する。
これらのアルゴリズムは、既存の低コストで小規模な空間アーキテクチャ上で効率的に実行されるように調整されており、既存のアクセラレーターのネットワークオンチップに最小限の変更を必要とする。
ecoflowは、注意深いデータフローオーケストレーションと空間アーキテクチャに合わせたデータマッピングを通じて、ゼロパディングを排除します。
ecoflowは、cnn推論に最適化されたアーキテクチャ上で、柔軟で高性能なトランスポーズと拡張畳み込みを可能にする。
我々は,CNNトレーニングワークロードとGANトレーニングワークロードにおけるEcoFlowの効率性を評価する。
新しいサイクル・アキュレート・シミュレータにおける実験は、エコフローが
1) エンドツーエンドのCNNトレーニング時間を7~85%削減し,
2) エンドツーエンドのganトレーニング性能は,最先端のcnn推論アクセラレータと比較して29~42%向上する。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-objective Evolutionary Approach for Efficient Kernel Size and
Shape for CNN [12.697368516837718]
VGGNetやResNetのようなCNNトポロジにおける最先端の開発は、ますます正確になっている。
これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。
本稿では,畳み込み層におけるカーネルのサイズと数を削減することにより,計算資源の消費を最適化することを検討する。
論文 参考訳(メタデータ) (2021-06-28T14:47:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks [5.417507302691321]
S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なシストリックアレイと比較すると、S2Engine は約3.2times$と約3.0times$のスピードとエネルギー効率の改善を実現している。
論文 参考訳(メタデータ) (2021-06-15T06:08:37Z) - cuConv: A CUDA Implementation of Convolution for CNN Inference [0.0]
Convolutionsは、Convolutional Neural Networks(CNN)に基づくディープラーニングアプリケーションのコアオペレーションである。
本論文では,事前データ変換を必要とせずに,結合アクセスを好むCNN推論のための畳み込み操作のGPUベースの実装を提案する。
実験により,提案手法はCNN前方伝播畳み込み構成において顕著な性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-30T10:33:53Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional
Neural Networks Training [34.657942518465575]
畳み込みニューラルネットワーク(CNN)の訓練は通常、大量の計算資源を必要とする。
そこで本論文では,SparseTrain を用いた CNN トレーニングの高速化について提案する。
我々は,CNNを textitSparseTrain にマッピングする %a の単純なコンパイラを構築した。
論文 参考訳(メタデータ) (2020-07-21T11:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。