論文の概要: Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge
- arxiv url: http://arxiv.org/abs/2108.11441v1
- Date: Wed, 25 Aug 2021 19:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:54:38.682532
- Title: Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge
- Title(参考訳): エッジ上のコンピュータビジョンのための効率的なdnnオペレータの設計と足場訓練
- Authors: Vinod Ganesan and Pratyush Kumar
- Abstract要約: FuSeConvは深度的に分離可能な畳み込みの代替となる。
FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。
Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
- 参考スコア(独自算出の注目度): 3.3767251810292955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massively parallel systolic arrays and resource-efficient depthwise separable
convolutions are two promising techniques to accelerate DNN inference on the
edge. Interestingly, their combination is inefficient: Computational patterns
of depthwise separable convolutions do not exhibit a rhythmic systolic flow and
lack sufficient data reuse to saturate systolic arrays. We formally analyse
this inefficiency and propose an efficient operator, an optimal hardware
dataflow, and a superior training methodology towards alleviating this. The
efficient operator, called FuSeConv, is a drop-in replacement for depthwise
separable convolutions. FuSeConv factorizes convolution fully along their
spatial and depth dimensions. The resultant computation efficiently maps to
systolic arrays. The optimal dataflow, called Spatial-Tiled Output Stationary
(ST-OS), maximizes the efficiency of FuSeConv on systolic arrays. It maps
independent convolutions to rows of the array to maximize resource utilization
with negligible VLSI overheads. Neural Operator Scaffolding (NOS) scaffolds the
training of FuSeConv by distilling knowledge from the expensive depthwise
separable convolutions. This bridges the accuracy gap between FuSeConv networks
and baselines. Additionally, NOS can be combined with Neural Architecture
Search (NAS) to trade-off latency and accuracy. The HW/SW co-design of FuSeConv
with ST-OS achieves a significant speedup of 4.1-9.25X with state-of-the-art
efficient networks for ImageNet. The parameter efficiency of FuSeConv and its
significant out-performance over depthwise separable convolutions on systolic
arrays illustrates their promise as a strong solution on the edge. Training
FuSeConv networks with NOS achieves accuracy comparable to the baselines.
Further, by combining NOS with NAS, we design networks that define
state-of-the-art models improving on both accuracy and latency on systolic
arrays.
- Abstract(参考訳): 大規模並列シリアルアレイと資源効率の深い分離可能な畳み込みは、エッジ上のDNN推論を加速する2つの有望な手法である。
深く分離可能な畳み込みの計算パターンは、リズム的なシストリックフローを示しておらず、シストリックアレイを飽和させるのに十分なデータ再利用が不十分である。
我々は、この非効率性を正式に分析し、効率的なオペレーター、最適なハードウェアデータフロー、そしてこれを緩和するための優れたトレーニング方法論を提案する。
FuSeConvと呼ばれる効率的な演算子は、深い分離可能な畳み込みのドロップイン置換である。
fuseconvは畳み込みを空間と深さの次元に沿って完全に分解する。
結果の計算は、効率的にシストリックアレイにマッピングする。
最適データフローはSpatial-Tiled Output Stationary (ST-OS)と呼ばれ、FuSeConvのシストリクスアレイ上での効率を最大化する。
独立な畳み込みを配列の行にマッピングし、無視できるVLSIオーバーヘッドでリソース利用を最大化する。
Neuro Operator Scaffolding (NOS)は、高価な深度分離可能な畳み込みからの知識を蒸留することで、FuSeConvのトレーニングを足場に置いている。
これはfuseconvネットワークとベースライン間の精度ギャップを埋める。
さらに、NAS(Neural Architecture Search)と組み合わせることで、レイテンシと精度のトレードオフが可能になる。
FuSeConvとST-OSのHW/SW共同設計により、4.1-9.25Xの大幅な高速化を実現した。
FuSeConvのパラメータ効率と、その奥行きの分離可能なシリアルアレイ上の畳み込みに対する顕著なアウトパフォーマンスは、エッジ上での強い解であることを示す。
NOSを用いたFuSeConvネットワークのトレーニングは、ベースラインに匹敵する精度を達成する。
さらに,NASとNASを組み合わせることで,サイストリックアレイの精度と待ち時間を改善した最先端モデルを定義するネットワークを設計する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative
Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。
エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。
最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文 参考訳(メタデータ) (2023-06-02T07:00:42Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks [5.417507302691321]
S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なシストリックアレイと比較すると、S2Engine は約3.2times$と約3.0times$のスピードとエネルギー効率の改善を実現している。
論文 参考訳(メタデータ) (2021-06-15T06:08:37Z) - FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic
Arrays [2.8583189395674653]
本稿では,深度的に分離可能な畳み込みの代替としてFuSeConvを提案する。
FuSeConvは、空間次元と深さ次元に沿って分離可能な1次元の畳み込みを完全に分解する。
我々は、画像Netデータセットに匹敵する精度で、64x64サイズのシストリックアレイ上で、MobileNetのネットワークファミリで3x-7xの大幅な高速化を実現した。
論文 参考訳(メタデータ) (2021-05-27T20:19:39Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - PHEW: Constructing Sparse Networks that Learn Fast and Generalize Well
without Training Data [10.01323660393278]
本稿では、Synflow-L2アルゴリズムを用いて、トレーニングデータなしでより高速な収束を実現するためのスパースニューラルネットワークの設計方法を示す。
PHEW(Paths with Higher-Edge Weights)と呼ばれるトレーニングデータなしでスパースネットワークを構築する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T00:20:59Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。