論文の概要: More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity
- arxiv url: http://arxiv.org/abs/2207.03620v1
- Date: Thu, 7 Jul 2022 23:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:39:13.193905
- Title: More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity
- Title(参考訳): 2020年代のもっと多くのConvNet:スポーラリティを使って51x51を超えるカーネルをスケールアップ
- Authors: Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian
Wu, Mykola Pechenizkiy, Decebal Mocanu, Zhangyang Wang
- Abstract要約: 最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
- 参考スコア(独自算出の注目度): 103.62784587778037
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have quickly shined in the computer vision world since the
emergence of Vision Transformers (ViTs). The dominant role of convolutional
neural networks (CNNs) seems to be challenged by increasingly effective
transformer-based models. Very recently, a couple of advanced convolutional
models strike back with large kernels motivated by the local but large
attention mechanism, showing appealing performance and efficiency. While one of
them, i.e. RepLKNet, impressively manages to scale the kernel size to 31x31
with improved performance, the performance starts to saturate as the kernel
size continues growing, compared to the scaling trend of advanced ViTs such as
Swin Transformer. In this paper, we explore the possibility of training extreme
convolutions larger than 31x31 and test whether the performance gap can be
eliminated by strategically enlarging convolutions. This study ends up with a
recipe for applying extremely large kernels from the perspective of sparsity,
which can smoothly scale up kernels to 61x61 with better performance. Built on
this recipe, we propose Sparse Large Kernel Network (SLaK), a pure CNN
architecture equipped with 51x51 kernels that can perform on par with or better
than state-of-the-art hierarchical Transformers and modern ConvNet
architectures like ConvNeXt and RepLKNet, on ImageNet classification as well as
typical downstream tasks. Our code is available here
https://github.com/VITA-Group/SLaK.
- Abstract(参考訳): トランスフォーマーはビジョントランスフォーマー(vits)の出現以来、コンピュータビジョンの世界で急速に輝いている。
畳み込みニューラルネットワーク(CNN)の主要な役割は、より効果的なトランスフォーマーベースのモデルによって挑戦されているようである。
ごく最近、いくつかの先進的な畳み込みモデルが、局所的だが注目度の高いメカニズムによって動機付けられた大きなカーネルに逆戻りし、魅力的な性能と効率を示している。
RepLKNetは、パフォーマンスが向上してカーネルサイズを31x31に拡大するが、Swin Transformerのような先進的なViTのスケーリングトレンドと比較して、カーネルサイズが拡大するにつれてパフォーマンスが飽和し始める。
本稿では,31x31以上の極端畳み込みを訓練し,戦略的に畳み込みを拡大することで,性能ギャップを解消できるかどうかを検討する。
この研究は、スパルシリティの観点から非常に大きなカーネルを適用するためのレシピを導いており、より優れたパフォーマンスで、スムーズにカーネルを61x61にスケールアップすることができる。
そこで本稿では,sparse large kernel network (slak)を提案する。sparse large kernel network (slak)は51x51カーネルを備える純粋なcnnアーキテクチャで,最先端の階層的トランスフォーマーやconvnextやrelknetといった現代的なconvnetアーキテクチャと同等以上のパフォーマンスを実現する。
我々のコードはhttps://github.com/VITA-Group/SLaK.comで入手できる。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - KernelWarehouse: Rethinking the Design of Dynamic Convolution [16.101179962553385]
KernelWarehouseはカーネルの基本概念を再定義し、カーネルを組み立てる。
我々は、さまざまなConvNetアーキテクチャを用いて、ImageNetおよびMS-COCOデータセットにおけるKernelWarehouseの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-12T05:16:26Z) - PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution [35.1473732030645]
人間の視覚に触発されて、高密度グリッド畳み込みの90%以上のパラメータ数を効率的に削減する、ヒトのような周辺畳み込みを提案する。
末梢のコンボリューションは人間と非常によく似ており,O(K2) から O(logK) へのコンボリューションの複雑度を低下させる。
初めて、CNNのカーネルサイズを前例のない101x101にスケールアップし、一貫した改善を実証しました。
論文 参考訳(メタデータ) (2024-03-12T12:19:05Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。