論文の概要: Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
- arxiv url: http://arxiv.org/abs/2401.12736v1
- Date: Tue, 23 Jan 2024 13:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:45:02.400474
- Title: Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
- Title(参考訳): Shift-ConvNets: 大きなカーネル効果を持つ小さな畳み込みカーネル
- Authors: Dachong Li, Li Li, Zhuangzhuang Chen, Jianqiang Li
- Abstract要約: 小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 8.933264104073832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies reveal that the remarkable performance of Vision transformers
(ViTs) benefits from large receptive fields. For this reason, the large
convolutional kernel design becomes an ideal solution to make Convolutional
Neural Networks (CNNs) great again. However, the typical large convolutional
kernels turn out to be hardware-unfriendly operators, resulting in discount
compatibility of various hardware platforms. Thus, it is unwise to simply
enlarge the convolutional kernel size. In this paper, we reveal that small
convolutional kernels and convolution operations can achieve the closing
effects of large kernel sizes. Then, we propose a shift-wise operator that
ensures the CNNs capture long-range dependencies with the help of the sparse
mechanism, while remaining hardware-friendly. Experimental results show that
our shift-wise operator significantly improves the accuracy of a regular CNN
while markedly reducing computational requirements. On the ImageNet-1k, our
shift-wise enhanced CNN model outperforms the state-of-the-art models. Code &
models at https://github.com/lidc54/shift-wiseConv.
- Abstract(参考訳): 近年の研究では、視覚変換器(ViT)の顕著な性能は、大きな受容場から得られることが示されている。
このため、大きな畳み込みカーネル設計は、畳み込みニューラルネットワーク(CNN)を再び素晴らしいものにするための理想的な解決策となる。
しかし、典型的な大規模畳み込みカーネルはハードウェア非フレンドリーなオペレータであることが判明し、様々なハードウェアプラットフォームとの互換性が低下した。
したがって、畳み込みカーネルのサイズを単純に拡大するのは賢明ではない。
本稿では,小さな畳み込みカーネルと畳み込み操作により,大きなカーネルサイズでの閉包効果を実現できることを示す。
そこで我々は,ハードウェアフレンドリなまま,スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
実験の結果,我々のシフトワイド演算子は,計算要求を著しく低減しつつ,通常のCNNの精度を大幅に向上することがわかった。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
コードとモデル: https://github.com/lidc54/shift-wiseconv。
関連論文リスト
- PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Hyper-Convolutions via Implicit Kernels for Medical Imaging [18.98078260974008]
本稿では、空間座標を用いて畳み込みカーネルを暗黙的に符号化する新しいビルディングブロックであるthithyper-convolutionを提案する。
実験では、通常の畳み込みをハイパー畳み込みに置き換えることで、少ないパラメータで性能が向上し、ノイズに対する堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2022-02-06T03:56:19Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。