論文の概要: S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2106.07894v1
- Date: Tue, 15 Jun 2021 06:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 14:55:35.843809
- Title: S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks
- Title(参考訳): S2Engine: スパース畳み込みニューラルネットワークのための新しいシステリックアーキテクチャ
- Authors: Jianlei Yang, Wenzhi Fu, Xingzhou Cheng, Xucheng Ye, Pengcheng Dai,
and Weisheng Zhao
- Abstract要約: S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なシストリックアレイと比較すると、S2Engine は約3.2times$と約3.0times$のスピードとエネルギー効率の改善を実現している。
- 参考スコア(独自算出の注目度): 5.417507302691321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have achieved great success in
performing cognitive tasks. However, execution of CNNs requires a large amount
of computing resources and generates heavy memory traffic, which imposes a
severe challenge on computing system design. Through optimizing parallel
executions and data reuse in convolution, systolic architecture demonstrates
great advantages in accelerating CNN computations. However, regular internal
data transmission path in traditional systolic architecture prevents the
systolic architecture from completely leveraging the benefits introduced by
neural network sparsity. Deployment of fine-grained sparsity on the existing
systolic architectures is greatly hindered by the incurred computational
overheads. In this work, we propose S2Engine $-$ a novel systolic architecture
that can fully exploit the sparsity in CNNs with maximized data reuse. S2Engine
transmits compressed data internally and allows each processing element to
dynamically select an aligned data from the compressed dataflow in convolution.
Compared to the naive systolic array, S2Engine achieves about $3.2\times$ and
about $3.0\times$ improvements on speed and energy efficiency, respectively.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は認知タスクの実行において大きな成功を収めている。
しかし、CNNの実行には大量のコンピューティングリソースが必要であり、大量のメモリトラフィックが発生するため、コンピュータシステム設計に深刻な課題が生じる。
並列実行とデータの再利用を畳み込みで最適化することで、シストリックアーキテクチャはCNN計算を高速化する大きな利点を示す。
しかし、従来のシストリックアーキテクチャにおける通常の内部データ伝送パスは、シストリックアーキテクチャがニューラルネットワークの間隔によってもたらされる利点を完全に活用するのを防ぐ。
既存のシストリックアーキテクチャへのきめ細かい粒度の展開は、計算オーバーヘッドの増大によって著しく妨げられる。
本研究では,データ再利用の最大化により,CNNの空間性を完全に活用できる新しいシステムであるS2Engine $-$を提案する。
S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なsystolic配列と比較して、s2engineは、それぞれ3.2\times$と約3.0\times$のスピードとエネルギー効率の改善を達成している。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - YFlows: Systematic Dataflow Exploration and Code Generation for
Efficient Neural Network Inference using SIMD Architectures on CPUs [3.1445034800095413]
CPU上にニューラルネットワークをデプロイする際の課題に対処する。
我々の新しいアプローチは、ニューラルネットワークのデータフローを使用して、データ再利用の機会を探ることです。
その結果,SIMDレジスタに出力を保持するデータフローが常に最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-10-01T05:11:54Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文 参考訳(メタデータ) (2022-02-04T18:48:36Z) - Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge [3.3767251810292955]
FuSeConvは深度的に分離可能な畳み込みの代替となる。
FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。
Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
論文 参考訳(メタデータ) (2021-08-25T19:22:25Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic
Arrays [2.8583189395674653]
本稿では,深度的に分離可能な畳み込みの代替としてFuSeConvを提案する。
FuSeConvは、空間次元と深さ次元に沿って分離可能な1次元の畳み込みを完全に分解する。
我々は、画像Netデータセットに匹敵する精度で、64x64サイズのシストリックアレイ上で、MobileNetのネットワークファミリで3x-7xの大幅な高速化を実現した。
論文 参考訳(メタデータ) (2021-05-27T20:19:39Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional
Neural Networks Training [34.657942518465575]
畳み込みニューラルネットワーク(CNN)の訓練は通常、大量の計算資源を必要とする。
そこで本論文では,SparseTrain を用いた CNN トレーニングの高速化について提案する。
我々は,CNNを textitSparseTrain にマッピングする %a の単純なコンパイラを構築した。
論文 参考訳(メタデータ) (2020-07-21T11:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。