論文の概要: CASSOD-Net: Cascaded and Separable Structures of Dilated Convolution for
Embedded Vision Systems and Applications
- arxiv url: http://arxiv.org/abs/2104.14126v1
- Date: Thu, 29 Apr 2021 05:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:49:06.562043
- Title: CASSOD-Net: Cascaded and Separable Structures of Dilated Convolution for
Embedded Vision Systems and Applications
- Title(参考訳): CASSOD-Net:組み込みビジョンシステムのための拡張畳み込み構造と応用
- Authors: Tse-Wei Chen, Deyu Wang, Wei Tao, Dongchao Wen, Lingxiao Yin, Tadayuki
Ito, Kinya Osa, Masami Kato
- Abstract要約: 本研究では,CASSODネットワークを効率的に処理するためのネットワークモジュール,Cascaded and Separable Structure of Dilated (CASSOD) Convolution,および特別なハードウェアシステムを提案する。
CASSOD-Netは、複数のカスケードされた2倍の2$拡張フィルタを含み、推論の精度を低下させることなく、従来の3倍の3$拡張フィルタを置き換えるために使用できる。
新しい顔検出ネットワークは、コンテキストモジュールの拡張畳み込み層におけるフィルタ重みのわずか47%で、以前の作業よりも高い精度を達成している。
- 参考スコア(独自算出の注目度): 24.391579215969724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The field of view (FOV) of convolutional neural networks is highly related to
the accuracy of inference. Dilated convolutions are known as an effective
solution to the problems which require large FOVs. However, for general-purpose
hardware or dedicated hardware, it usually takes extra time to handle dilated
convolutions compared with standard convolutions. In this paper, we propose a
network module, Cascaded and Separable Structure of Dilated (CASSOD)
Convolution, and a special hardware system to handle the CASSOD networks
efficiently. A CASSOD-Net includes multiple cascaded $2 \times 2$ dilated
filters, which can be used to replace the traditional $3 \times 3$ dilated
filters without decreasing the accuracy of inference. Two example applications,
face detection and image segmentation, are tested with dilated convolutions and
the proposed CASSOD modules. The new network for face detection achieves higher
accuracy than the previous work with only 47% of filter weights in the dilated
convolution layers of the context module. Moreover, the proposed hardware
system can accelerate the computations of dilated convolutions, and it is 2.78
times faster than traditional hardware systems when the filter size is $3
\times 3$.
- Abstract(参考訳): 畳み込みニューラルネットワークの視野(FOV)は、推論の精度に強く関係している。
拡張畳み込みは大規模なFOVを必要とする問題に対する効果的な解決法として知られている。
しかし、汎用ハードウェアや専用ハードウェアの場合、通常、標準的な畳み込みよりも拡張畳み込みを扱うのに余分な時間を要する。
本稿では,Cascaded and Separable Structure of Dilated (CASSOD) Convolutionというネットワークモジュールと,CASSODネットワークを効率的に処理するためのハードウェアシステムを提案する。
CASSOD-Netには、従来の$3 \times 3$拡張フィルタを、推論の精度を低下させることなく置き換えることができる2$2$拡張フィルタが複数含まれている。
顔検出と画像分割の2つの例を拡張畳み込みと提案するcassodモジュールを用いてテストした。
新しい顔検出ネットワークは、コンテキストモジュールの拡張畳み込み層におけるフィルタ重みのわずか47%で、以前の作業よりも高い精度を達成している。
さらに,提案したハードウェアシステムは拡張畳み込みの計算を高速化し,フィルタサイズが3ドル3セントである場合,従来のハードウェアシステムよりも2.78倍高速である。
関連論文リスト
- Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - A New Backbone for Hyperspectral Image Reconstruction [90.48427561874402]
3次元ハイパースペクトル画像(HSI)再構成は、スナップショット圧縮画像の逆過程を指す。
空間/スペクトル不変Residual U-Net、すなわちSSI-ResU-Netを提案する。
SSI-ResU-Net は浮動小数点演算の 77.3% 以上で競合する性能を実現する。
論文 参考訳(メタデータ) (2021-08-17T16:20:51Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching [33.66537830990198]
本研究では,3次元畳み込みフィルタで用いる4次元立方体体積を相違点方向の逐次コストマップに分解する。
新たなリカレントモジュールであるスタックド・リカレント・ホアーグラス(SRH)が,各コストマップの処理のために提案されている。
提案アーキテクチャはエンドツーエンドのパイプラインで実装され、パブリックデータセットで評価される。
論文 参考訳(メタデータ) (2021-05-25T00:10:56Z) - Hardware Architecture of Embedded Inference Accelerator and Analysis of
Algorithms for Depthwise and Large-Kernel Convolutions [27.141754658998323]
提案されたアーキテクチャは、異なるサイズのフィルタカーネルを高い柔軟性でサポートする。
画像分類では、深さ方向の畳み込みで3倍の3$フィルタを5倍の5$フィルタに置き換えることで、精度が1%向上する。
論文 参考訳(メタデータ) (2021-04-29T05:45:16Z) - Gram Regularization for Multi-view 3D Shape Retrieval [3.655021726150368]
本稿では,グラム正規化という新しい正規化用語を提案する。
重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。
提案したグラム正規化はデータ独立であり、ベルやホイッスルを使わずに安定かつ迅速に収束することができる。
論文 参考訳(メタデータ) (2020-11-16T05:37:24Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。