Fugu-MT 論文翻訳(概要): ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining

論文の概要: ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining

arxiv url: http://arxiv.org/abs/2211.12600v2
Date: Tue, 6 Jun 2023 09:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 21:25:25.009896
Title: ArrayFlex: A Systolic Array Architecture with Configurable Transparent Pipelining
Title（参考訳）: ArrayFlex: 構成可能な透明パイプライニングを備えたシストリックアレーアーキテクチャ
Authors: C. Peltekis, D. Filippas, G. Dimitrakopoulos, C. Nicopoulos, D. Pnevmatikatos
Abstract要約: 畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。本研究では,パイプラインを用いたシストリックアレイの設計に焦点をあてる。 ArrayFlexは、従来の固定パイプ型シストリックアレイと比較して、最先端CNNのレイテンシを平均で11%削減することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolutional Neural Networks (CNNs) are the state-of-the-art solution for many deep learning applications. For maximum scalability, their computation should combine high performance and energy efficiency. In practice, the convolutions of each CNN layer are mapped to a matrix multiplication that includes all input features and kernels of each layer and is computed using a systolic array. In this work, we focus on the design of a systolic array with configurable pipeline with the goal to select an optimal pipeline configuration for each CNN layer. The proposed systolic array, called ArrayFlex, can operate in normal, or in shallow pipeline mode, thus balancing the execution time in cycles and the operating clock frequency. By selecting the appropriate pipeline configuration per CNN layer, ArrayFlex reduces the inference latency of state-of-the-art CNNs by 11%, on average, as compared to a traditional fixed-pipeline systolic array. Most importantly, this result is achieved while using 13%-23% less power, for the same applications, thus offering a combined energy-delay-product efficiency between 1.4x and 1.8x.
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。最大スケーラビリティのために、それらの計算は高性能とエネルギー効率を組み合わせるべきである。実際には、各cnn層の畳み込みは、各層の全ての入力特徴とカーネルを含む行列乗算にマッピングされ、systolic配列を用いて計算される。本研究では,cnn層ごとに最適なパイプライン構成を選択することを目的として,構成可能なパイプラインを用いたシストリクスアレイの設計に着目する。提案したsystolic arrayはArrayFlexと呼ばれ、通常または浅いパイプラインモードで動作可能で、サイクルの実行時間と動作クロック周波数のバランスをとることができる。適切なパイプライン構成をCNN層毎に選択することで、従来の固定パイプシストリック配列と比較して、ArrayFlexは最先端CNNの推論遅延を平均11%削減する。最も重要なことは、同じ用途で13%-23%の電力を消費しながらこの結果を達成し、1.4倍から1.8倍のエネルギー分解効率を提供する。

関連論文リスト

Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
An efficient and flexible inference system for serving heterogeneous ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。 DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文参考訳（メタデータ） (2022-08-30T08:05:43Z)
Lightweight and Progressively-Scalable Networks for Semantic Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文参考訳（メタデータ） (2022-07-27T16:00:28Z)
Towards a General Purpose CNN for Long Range Dependencies in $\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。 1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文参考訳（メタデータ） (2022-06-07T15:48:02Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Design and Scaffolded Training of an Efficient DNN Operator for Computer Vision on the Edge [3.3767251810292955]
FuSeConvは深度的に分離可能な畳み込みの代替となる。 FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。 Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
論文参考訳（メタデータ） (2021-08-25T19:22:25Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic Arrays [2.8583189395674653]
本稿では,深度的に分離可能な畳み込みの代替としてFuSeConvを提案する。 FuSeConvは、空間次元と深さ次元に沿って分離可能な1次元の畳み込みを完全に分解する。我々は、画像Netデータセットに匹敵する精度で、64x64サイズのシストリックアレイ上で、MobileNetのネットワークファミリで3x-7xの大幅な高速化を実現した。
論文参考訳（メタデータ） (2021-05-27T20:19:39Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
Implicit Convex Regularizers of CNN Architectures: Convex Optimization of Two- and Three-Layer Networks in Polynomial Time [70.15611146583068]
本稿では,ReLUアクティベーションを用いた畳み込みニューラルネットワーク(CNN)のトレーニングについて検討する。我々は,データサンプル数,ニューロン数,データ次元に関して,厳密な凸最適化を導入する。
論文参考訳（メタデータ） (2020-06-26T04:47:20Z)
FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文参考訳（メタデータ） (2020-04-27T15:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。