論文の概要: Phantom: A High-Performance Computational Core for Sparse Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2111.05002v1
- Date: Tue, 9 Nov 2021 08:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:24:26.086062
- Title: Phantom: A High-Performance Computational Core for Sparse Convolutional
Neural Networks
- Title(参考訳): Phantom: スパース畳み込みニューラルネットワークのための高性能計算コア
- Authors: Mahmood Azhar Qureshi, Arslan Munir
- Abstract要約: スパース畳み込みニューラルネットワーク(CNN)はここ数年で大きな注目を集めている。
モデルのサイズや計算を、密度の高いモデルに比べて大幅に削減することができる。
最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、パフォーマンス向上のために、重みとアクティベーションの両方の間隔という、両側または完全な間隔を積極的に活用している。
これらのアクセラレーターは非効率なマイクロアーキテクチャを持ち、パフォーマンスを制限し、非ユニットストライドの畳み込みと完全に接続された層をサポートしないか、または苦しむかのいずれかである。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse convolutional neural networks (CNNs) have gained significant traction
over the past few years as sparse CNNs can drastically decrease the model size
and computations, if exploited befittingly, as compared to their dense
counterparts. Sparse CNNs often introduce variations in the layer shapes and
sizes, which can prevent dense accelerators from performing well on sparse CNN
models. Recently proposed sparse accelerators like SCNN, Eyeriss v2, and
SparTen, actively exploit the two-sided or full sparsity, that is, sparsity in
both weights and activations, for performance gains. These accelerators,
however, either have inefficient micro-architecture, which limits their
performance, have no support for non-unit stride convolutions and
fully-connected (FC) layers, or suffer massively from systematic load
imbalance. To circumvent these issues and support both sparse and dense models,
we propose Phantom, a multi-threaded, dynamic, and flexible neural
computational core. Phantom uses sparse binary mask representation to actively
lookahead into sparse computations, and dynamically schedule its computational
threads to maximize the thread utilization and throughput. We also generate a
two-dimensional (2D) mesh architecture of Phantom neural computational cores,
which we refer to as Phantom-2D accelerator, and propose a novel dataflow that
supports all layers of a CNN, including unit and non-unit stride convolutions,
and FC layers. In addition, Phantom-2D uses a two-level load balancing strategy
to minimize the computational idling, thereby, further improving the hardware
utilization. To show support for different types of layers, we evaluate the
performance of the Phantom architecture on VGG16 and MobileNet. Our simulations
show that the Phantom-2D accelerator attains a performance gain of 12x, 4.1x,
1.98x, and 2.36x, over dense architectures, SCNN, SparTen, and Eyeriss v2,
respectively.
- Abstract(参考訳): スパース畳み込みニューラルネットワーク(sparse convolutional neural networks, cnns)はここ数年、モデルのサイズと計算量を大幅に減少させる可能性があるため、その密集したニューラルネットワークと比べて大きな注目を集めている。
スパースCNNは、しばしば層形状や大きさのバリエーションを導入し、密度の高い加速器がスパースCNNモデルでうまく動作しないようにする。
最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、性能向上のために、重みとアクティベーションの両方のスパースネスを積極的に利用している。
しかし、これらの加速器は、性能を制限した非効率なマイクロアーキテクチャを持ち、非単体ストライド畳み込みと完全連結(FC)層をサポートしていないか、あるいは系統的な負荷不均衡に悩まされている。
これらの問題を回避し、スパースモデルと高密度モデルの両方をサポートするため、マルチスレッド、動的、柔軟なニューラル計算コアであるphantomを提案する。
Phantomはスパースバイナリマスク表現を使用してスパース計算を積極的に検討し、その計算スレッドを動的にスケジュールしてスレッドの利用とスループットを最大化する。
また,phantom-2dacceleratorと呼ばれるファントムニューラル計算コアの2次元(2d)メッシュアーキテクチャを作成し,単位および非単位のストライド畳み込みやfc層を含むcnnの全層をサポートする新しいデータフローを提案する。
さらに、phantom-2dは2レベルロードバランシング戦略を使用して計算のアイドルを最小化し、ハードウェア利用をさらに改善する。
異なるタイプのレイヤのサポートを示すため,VGG16およびMobileNet上でのPhantomアーキテクチャの性能を評価する。
シミュレーションにより,Phantom-2D加速器は高密度アーキテクチャ,SCNN,SparTen,Eyeriss v2でそれぞれ12倍,4.1倍,1.98倍,2.36倍の性能向上を達成した。
関連論文リスト
- Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文 参考訳(メタデータ) (2022-02-04T18:48:36Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Learning Sparse & Ternary Neural Networks with Entropy-Constrained
Trained Ternarization (EC2T) [17.13246260883765]
ディープニューラルネットワーク(DNN)は、さまざまな機械学習アプリケーションで顕著な成功を収めている。
近年,資源に制約のあるデバイスにDNNを配置することへの関心が高まっている。
本稿では,スパースニューラルネットワークと3次ニューラルネットワークの汎用フレームワークであるEntropy-Constrained Trained Ternarization (EC2T)を提案する。
論文 参考訳(メタデータ) (2020-04-02T15:38:00Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。