論文の概要: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
- arxiv url: http://arxiv.org/abs/2203.06717v2
- Date: Thu, 17 Mar 2022 15:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 10:47:22.933728
- Title: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
- Title(参考訳): カーネルを31x31にスケールアップする - cnnで大規模カーネル設計を再検討する
- Authors: Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang
Ding, Jian Sun
- Abstract要約: 現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
- 参考スコア(独自算出の注目度): 148.0476219278875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit large kernel design in modern convolutional neural networks
(CNNs). Inspired by recent advances of vision transformers (ViTs), in this
paper, we demonstrate that using a few large convolutional kernels instead of a
stack of small kernels could be a more powerful paradigm. We suggested five
guidelines, e.g., applying re-parameterized large depth-wise convolutions, to
design efficient high-performance large-kernel CNNs. Following the guidelines,
we propose RepLKNet, a pure CNN architecture whose kernel size is as large as
31x31, in contrast to commonly used 3x3. RepLKNet greatly closes the
performance gap between CNNs and ViTs, e.g., achieving comparable or superior
results than Swin Transformer on ImageNet and a few typical downstream tasks,
with lower latency. RepLKNet also shows nice scalability to big data and large
models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0% mIoU on ADE20K,
which is very competitive among the state-of-the-arts with similar model sizes.
Our study further reveals that, in contrast to small-kernel CNNs, large-kernel
CNNs have much larger effective receptive fields, and higher shape bias rather
than texture bias. Code & models at
https://github.com/megvii-research/RepLKNet.
- Abstract(参考訳): 我々は、現代の畳み込みニューラルネットワーク(cnns)における大規模カーネル設計を再考する。
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことがより強力なパラダイムであることを示す。
提案する5つのガイドラインは、例えば、高効率な大規模カーネルCNNの設計に再パラメータ化された大深度畳み込みを適用したものである。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
RepLKNetは、例えばImageNet上のSwin Transformerやいくつかの典型的なダウンストリームタスクと同等あるいは優れた結果を達成するために、CNNとViTのパフォーマンスギャップを大幅に短縮する。
RepLKNetは、ImageNetで87.8%、ADE20Kで56.0%のmIoUを取得できるなど、ビッグデータや大規模モデルにも優れたスケーラビリティを示している。
さらに本研究では, 小型カーネルCNNとは対照的に, 大型カーネルCNNは高い有効受容場を有し, テクスチャバイアスよりも高い形状バイアスを有することを明らかにした。
コードとモデルはhttps://github.com/megvii-research/replknet。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs [78.25819070166351]
本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-21T17:35:57Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。