論文の概要: Are Large Kernels Better Teachers than Transformers for ConvNets?
- arxiv url: http://arxiv.org/abs/2305.19412v1
- Date: Tue, 30 May 2023 21:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:36:12.099882
- Title: Are Large Kernels Better Teachers than Transformers for ConvNets?
- Title(参考訳): 大カーネルはConvNetのトランスフォーマーよりも優れた教師か?
- Authors: Tianjin Huang, Lu Yin, Zhenyu Zhang, Li Shen, Meng Fang, Mykola
Pechenizkiy, Zhangyang Wang and Shiwei Liu
- Abstract要約: 本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
- 参考スコア(独自算出の注目度): 82.4742785108714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reveals a new appeal of the recently emerged large-kernel
Convolutional Neural Networks (ConvNets): as the teacher in Knowledge
Distillation (KD) for small-kernel ConvNets. While Transformers have led
state-of-the-art (SOTA) performance in various fields with ever-larger models
and labeled data, small-kernel ConvNets are considered more suitable for
resource-limited applications due to the efficient convolution operation and
compact weight sharing. KD is widely used to boost the performance of
small-kernel ConvNets. However, previous research shows that it is not quite
effective to distill knowledge (e.g., global information) from Transformers to
small-kernel ConvNets, presumably due to their disparate architectures. We
hereby carry out a first-of-its-kind study unveiling that modern large-kernel
ConvNets, a compelling competitor to Vision Transformers, are remarkably more
effective teachers for small-kernel ConvNets, due to more similar
architectures. Our findings are backed up by extensive experiments on both
logit-level and feature-level KD ``out of the box", with no dedicated
architectural nor training recipe modifications. Notably, we obtain the
\textbf{best-ever pure ConvNet} under 30M parameters with \textbf{83.1\%} top-1
accuracy on ImageNet, outperforming current SOTA methods including ConvNeXt V2
and Swin V2. We also find that beneficial characteristics of large-kernel
ConvNets, e.g., larger effective receptive fields, can be seamlessly
transferred to students through this large-to-small kernel distillation. Code
is available at: \url{https://github.com/VITA-Group/SLaK}.
- Abstract(参考訳): 本稿では,最近出現した大カーネル畳み込みニューラルネットワーク(convnets: the teacher in knowledge distillation (kd) for small-kernel convnets)について述べる。
トランスフォーマーは、より大規模なモデルとラベル付きデータを持つ様々な分野で最先端(SOTA)性能を導いているが、小さなカーネルのConvNetは、効率的な畳み込み操作とコンパクトな重量共有のためにリソース制限されたアプリケーションに適していると考えられている。
KDは小型カーネルのConvNetの性能向上に広く利用されている。
しかし、以前の研究では、トランスフォーマーから小さなカーネルのコンブネットへ知識(例えばグローバル情報)を蒸留することはあまり効果的ではないことが示されている。
私たちは今回、Vision Transformersと競合するモダンな大型カーネルConvNetsが、より類似したアーキテクチャのため、小型カーネルConvNetsの教師として驚くほど効果的であることを明らかにする最初の研究を行った。
我々の研究は、ロジットレベルと特徴レベルのKD ``out of the box"の両方に関する広範な実験によって裏付けられ、専用のアーキテクチャやトレーニングのレシピ修正は行われていない。
特に,30M のパラメータで \textbf{best-ever pure ConvNet} を得ると,ImageNet 上で \textbf{83.1\%} のトップ-1 の精度が得られ,ConvNeXt V2 や Swin V2 など現在の SOTA 手法よりも優れていた。
また, 大型カーネル網の有効特性, 例えば, より大きな有効受容場は, この大規模から小規模の核蒸留により, 学生にシームレスに伝達できることがわかった。
コードは以下の通り: \url{https://github.com/VITA-Group/SLaK}。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Designing Concise ConvNets with Columnar Stages [33.248031676529635]
我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。
評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文 参考訳(メタデータ) (2024-10-05T09:03:42Z) - UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition [61.01408259741114]
大規模なカーネルベースの畳み込みニューラルネットワーク(ConvNets)を設計するための4つのアーキテクチャガイドラインを提案する。
提案する大規模カーネルベースのConvNetは,画像認識における主要な性能を示す。
大規模なカーネルが、もともと熟練していないドメインにおいて、ConvNetの例外的なパフォーマンスを解放する鍵であることを発見した。
論文 参考訳(メタデータ) (2023-11-27T07:48:50Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - More ConvNets in the 2020s: Scaling up Kernels Beyond 51x51 using
Sparsity [103.62784587778037]
最近、いくつかの先進的な畳み込みモデルが、局所的だが大きな注意機構によって動機付けられた大きなカーネルで後退している。
本稿では,51x51カーネルを備えた純粋なCNNアーキテクチャであるSparse Large Kernel Network (SLaK)を提案する。
論文 参考訳(メタデータ) (2022-07-07T23:55:52Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - ConTNet: Why not use convolution and transformer at the same time? [28.343371000297747]
トランスとConvNetアーキテクチャを組み合わせて、大きなレセプティブフィールドを提供するConTNetを提案します。
画像分類と下流タスクにおけるその優位性と有効性を提示する。
ConTNetがCVタスクの有用なバックボーンとなり、モデル設計に新しいアイデアをもたらすことを期待しています。
論文 参考訳(メタデータ) (2021-04-27T22:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。