論文の概要: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
- arxiv url: http://arxiv.org/abs/2203.06717v1
- Date: Sun, 13 Mar 2022 17:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 13:21:33.176403
- Title: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
- Title(参考訳): カーネルを31x31にスケールアップする - cnnで大規模カーネル設計を再検討する
- Authors: Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang
Ding, Jian Sun
- Abstract要約: RepLKNetは純粋なCNNアーキテクチャで、カーネルサイズは31x31である。
RepLKNetは、CNNとViTのパフォーマンスギャップを埋め、Swin Transformerに匹敵する、あるいはより良い結果を達成する。
- 参考スコア(独自算出の注目度): 148.0476219278875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we revisit large kernel design in modern convolutional neural
networks (CNNs), which is often neglected in the past few years. Inspired by
recent advances of vision transformers (ViTs), we point out that using a few
large kernels instead of a stack of small convolutions could be a more powerful
paradigm. We therefore summarize 5 guidelines, e.g., applying re-parameterized
large depth-wise convolutions, to design efficient high-performance
large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN
architecture whose kernel size is as large as 31x31. RepLKNet greatly bridges
the performance gap between CNNs and ViTs, e.g., achieving comparable or better
results than Swin Transformer on ImageNet and downstream tasks, while the
latency of RepLKNet is much lower. Moreover, RepLKNet also shows feasible
scalability to big data and large models, obtaining 87.8% top-1 accuracy on
ImageNet and 56.0%} mIoU on ADE20K. At last, our study further suggests
large-kernel CNNs share several nice properties with ViTs, e.g., much larger
effective receptive fields than conventional CNNs, and higher shape bias rather
than texture bias. Code & models at
https://github.com/megvii-research/RepLKNet.
- Abstract(参考訳): 本稿では,近年無視されている現代畳み込みニューラルネットワーク(CNN)の大規模カーネル設計を再考する。
視覚変換器(ViT)の最近の進歩に触発されて、小さな畳み込みのスタックではなく、少数の大きなカーネルを使用することが、より強力なパラダイムになり得ることを指摘した。
そこで我々は、例えば、効率的な高性能大カーネルCNNの設計に再パラメータ化された大深度畳み込みを適用した5つのガイドラインを要約する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
RepLKNetは、CNNとViTのパフォーマンスギャップを大幅に橋渡しする。例えば、ImageNetや下流タスクにおいて、Swin Transformerと同等またはより良い結果を達成する一方で、RepLKNetのレイテンシははるかに低い。
さらに、RepLKNetは、ビッグデータや大規模モデルに対して実現可能なスケーラビリティを示し、ImageNetでは87.8%、ADE20Kでは56.0%のmIoUが得られる。
最終的に、我々の研究は、大型カーネルCNNが、従来のCNNよりもはるかに大きな効果的な受容場や、テクスチャバイアスよりも高い形状バイアスなど、ViTといくつかの優れた特性を共有していることを示唆している。
コードとモデルはhttps://github.com/megvii-research/replknet。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs [78.25819070166351]
本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-21T17:35:57Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。