論文の概要: FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic
Arrays
- arxiv url: http://arxiv.org/abs/2105.13434v1
- Date: Thu, 27 May 2021 20:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:28:23.259176
- Title: FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic
Arrays
- Title(参考訳): FuSeConv:シストリックアレイ上の高速推論のための完全分離可能な畳み込み
- Authors: Surya Selvam, Vinod Ganesan and Pratyush Kumar
- Abstract要約: 本稿では,深度的に分離可能な畳み込みの代替としてFuSeConvを提案する。
FuSeConvは、空間次元と深さ次元に沿って分離可能な1次元の畳み込みを完全に分解する。
我々は、画像Netデータセットに匹敵する精度で、64x64サイズのシストリックアレイ上で、MobileNetのネットワークファミリで3x-7xの大幅な高速化を実現した。
- 参考スコア(独自算出の注目度): 2.8583189395674653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Both efficient neural networks and hardware accelerators are being explored
to speed up DNN inference on edge devices. For example, MobileNet uses
depthwise separable convolution to achieve much lower latency, while systolic
arrays provide much higher performance per watt. Interestingly however, the
combination of these two ideas is inefficient: The computational patterns of
depth-wise separable convolution are not systolic and lack data reuse to
saturate the systolic array's constrained dataflow. In this paper, we propose
FuSeConv (Fully-Separable Convolution) as a drop-in replacement for depth-wise
separable convolution. FuSeConv generalizes the decomposition of convolutions
fully to separable 1D convolutions along spatial and depth dimensions. The
resultant computation is systolic and efficiently utilizes the systolic array
with a slightly modified dataflow. With FuSeConv, we achieve a significant
speed-up of 3x-7x with the MobileNet family of networks on a systolic array of
size 64x64, with comparable accuracy on the ImageNet dataset. The high speed-up
motivates exploration of hardware-aware Neural Operator Search (NOS) in
complement to ongoing efforts on Neural Architecture Search (NAS).
- Abstract(参考訳): 効率的なニューラルネットワークとハードウェアアクセラレータは、エッジデバイスでのdnn推論を高速化するために検討されている。
例えば、MobileNetは深度的に分離可能な畳み込みを使用してレイテンシをはるかに低くする一方、シストリックアレイはワット当たりのパフォーマンスをはるかに高くする。
しかし、これら2つのアイデアの組み合わせは非効率である: 深度的に分離可能な畳み込みの計算パターンはシストリックではなく、シストリックアレイの制約されたデータフローを飽和させるデータ再利用が欠如している。
本稿では,深度的に分離可能な畳み込みの代替としてFuSeConv(Fully-Separable Convolution)を提案する。
fuseconvは畳み込みの分解を空間次元と深さ次元に沿って分離可能な1次元畳み込みに完全に一般化する。
結果の計算はsystolicで、少し修正されたデータフローを持つsystolic配列を効率的に利用する。
FuSeConvでは、画像Netデータセットに匹敵する精度で、64x64サイズのサイストリックアレイ上で、MobileNetのネットワークファミリで3x-7倍のスピードアップを実現しています。
この高速化は、ハードウェア対応のNeural Operator Search (NOS) の探索を動機付け、Neural Architecture Search (NAS) の継続的な取り組みを補完するものである。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge [3.3767251810292955]
FuSeConvは深度的に分離可能な畳み込みの代替となる。
FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。
Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
論文 参考訳(メタデータ) (2021-08-25T19:22:25Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks [5.417507302691321]
S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なシストリックアレイと比較すると、S2Engine は約3.2times$と約3.0times$のスピードとエネルギー効率の改善を実現している。
論文 参考訳(メタデータ) (2021-06-15T06:08:37Z) - Hardware Architecture of Embedded Inference Accelerator and Analysis of
Algorithms for Depthwise and Large-Kernel Convolutions [27.141754658998323]
提案されたアーキテクチャは、異なるサイズのフィルタカーネルを高い柔軟性でサポートする。
画像分類では、深さ方向の畳み込みで3倍の3$フィルタを5倍の5$フィルタに置き換えることで、精度が1%向上する。
論文 参考訳(メタデータ) (2021-04-29T05:45:16Z) - VolumeNet: A Lightweight Parallel Network for Super-Resolution of
Medical Volumetric Data [20.34783243852236]
並列接続を用いたParallelNetと呼ばれる医療ボリュームデータのSRのための3次元畳み込みニューラルネットワーク(CNN)を提案する。
本稿では,提案手法によりモデルパラメータの数を著しく削減し,高精度な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:53:15Z) - Depth-wise Decomposition for Accelerating Separable Convolutions in
Efficient Convolutional Neural Networks [36.64158994999578]
多くのコンピュータビジョンタスクの主要な方法として、ディープ畳み込みニューラルネットワーク(CNN)が確立されている。
近年,計算能力に制限のあるプラットフォーム上での画像認識タスクに対して,深度的に分離可能な畳み込み法が提案されている。
本稿では, SVD に基づく新しい分解手法を提案し, 正規畳み込みを深度分割可能な畳み込みに拡張する。
論文 参考訳(メタデータ) (2019-10-21T15:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。