論文の概要: Hardware Architecture of Embedded Inference Accelerator and Analysis of
Algorithms for Depthwise and Large-Kernel Convolutions
- arxiv url: http://arxiv.org/abs/2104.14125v1
- Date: Thu, 29 Apr 2021 05:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:45:11.885516
- Title: Hardware Architecture of Embedded Inference Accelerator and Analysis of
Algorithms for Depthwise and Large-Kernel Convolutions
- Title(参考訳): 組込み推論加速器のハードウェアアーキテクチャと深部および大規模カーネル畳み込みのためのアルゴリズムの解析
- Authors: Tse-Wei Chen, Wei Tao, Deyu Wang, Dongchao Wen, Kinya Osa, Masami Kato
- Abstract要約: 提案されたアーキテクチャは、異なるサイズのフィルタカーネルを高い柔軟性でサポートする。
画像分類では、深さ方向の畳み込みで3倍の3$フィルタを5倍の5$フィルタに置き換えることで、精度が1%向上する。
- 参考スコア(独自算出の注目度): 27.141754658998323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In order to handle modern convolutional neural networks (CNNs) efficiently, a
hardware architecture of CNN inference accelerator is proposed to handle
depthwise convolutions and regular convolutions, which are both essential
building blocks for embedded-computer-vision algorithms. Different from related
works, the proposed architecture can support filter kernels with different
sizes with high flexibility since it does not require extra costs for
intra-kernel parallelism, and it can generate convolution results faster than
the architecture of the related works. The experimental results show the
importance of supporting depthwise convolutions and dilated convolutions with
the proposed hardware architecture. In addition to depthwise convolutions with
large-kernels, a new structure called DDC layer, which includes the combination
of depthwise convolutions and dilated convolutions, is also analyzed in this
paper. For face detection, the computational costs decrease by 30%, and the
model size decreases by 20% when the DDC layers are applied to the network. For
image classification, the accuracy is increased by 1% by simply replacing $3
\times 3$ filters with $5 \times 5$ filters in depthwise convolutions.
- Abstract(参考訳): 現代の畳み込みニューラルネットワーク(CNN)を効率的に処理するために、CNN推論アクセラレータのハードウェアアーキテクチャが提案され、奥行きの畳み込みと正規の畳み込みを扱う。
関連する研究と異なり、提案アーキテクチャはカーネル内並列処理に余分なコストを必要としないため、異なるサイズのフィルタカーネルを高い柔軟性でサポートでき、関連する作業のアーキテクチャよりも高速に畳み込み結果を生成することができる。
実験結果は,提案するハードウェアアーキテクチャとの奥行き方向畳み込みと拡張畳み込みをサポートすることの重要性を示した。
本論文では,大カーネルを用いた深度畳み込みに加えて,深度畳み込みと拡張畳み込みを組み合わせたDDC層と呼ばれる新しい構造も分析した。
顔検出では,ddc層をネットワークに適用した場合,計算コストは30%減少し,モデルサイズは20%減少する。
画像分類では、精度は3 \times 3$フィルタを5 \times 5$フィルタに置き換えるだけで1%向上する。
関連論文リスト
- ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。
ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文 参考訳(メタデータ) (2024-04-08T09:54:57Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration [76.35307867016336]
本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
論文 参考訳(メタデータ) (2021-07-08T23:05:39Z) - Multi-objective Evolutionary Approach for Efficient Kernel Size and
Shape for CNN [12.697368516837718]
VGGNetやResNetのようなCNNトポロジにおける最先端の開発は、ますます正確になっている。
これらのネットワークは数十億の演算とパラメータを含む計算コストが高い。
本稿では,畳み込み層におけるカーネルのサイズと数を削減することにより,計算資源の消費を最適化することを検討する。
論文 参考訳(メタデータ) (2021-06-28T14:47:29Z) - FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic
Arrays [2.8583189395674653]
本稿では,深度的に分離可能な畳み込みの代替としてFuSeConvを提案する。
FuSeConvは、空間次元と深さ次元に沿って分離可能な1次元の畳み込みを完全に分解する。
我々は、画像Netデータセットに匹敵する精度で、64x64サイズのシストリックアレイ上で、MobileNetのネットワークファミリで3x-7xの大幅な高速化を実現した。
論文 参考訳(メタデータ) (2021-05-27T20:19:39Z) - Decoupled Dynamic Filter Networks [85.38058820176047]
これらの欠点を同時に解決できるDDF(Decoupled Dynamic Filter)を提案します。
最近の注目の高まりに触発されて、DDFは深度ワイドなダイナミックフィルタを空間的およびチャネル的ダイナミックフィルタに分離する。
分類ネットワークにおける標準畳み込みをDFFに置き換える際の性能向上を観察する。
論文 参考訳(メタデータ) (2021-04-29T04:55:33Z) - VolumeNet: A Lightweight Parallel Network for Super-Resolution of
Medical Volumetric Data [20.34783243852236]
並列接続を用いたParallelNetと呼ばれる医療ボリュームデータのSRのための3次元畳み込みニューラルネットワーク(CNN)を提案する。
本稿では,提案手法によりモデルパラメータの数を著しく削減し,高精度な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:53:15Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Cluster Pruning: An Efficient Filter Pruning Method for Edge AI Vision
Applications [13.197955183748796]
CNNでフィルタを除去する構造的方法を提供するクラスタプルーニングと呼ばれる新しいグリーディ手法が提案されている。
提案手法を用いてエッジAIアプリケーションをデプロイするために,Intel Movidius-NCSからなる低コストIoTハードウェアセットアップを提案する。
論文 参考訳(メタデータ) (2020-03-05T06:20:09Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。