論文の概要: The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need
- arxiv url: http://arxiv.org/abs/2312.05695v2
- Date: Tue, 12 Dec 2023 18:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:44:33.393589
- Title: The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need
- Title(参考訳): 自己監視型学習におけるCNNの反撃:より大きいカーネルサイズは必要なもの
- Authors: Tianjin Huang, Tianlong Chen, Zhangyang Wang and Shiwei Liu
- Abstract要約: 視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
- 参考スコア(独自算出の注目度): 103.31261028244782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have been rapidly uprising in computer vision thanks to
their outstanding scaling trends, and gradually replacing convolutional neural
networks (CNNs). Recent works on self-supervised learning (SSL) introduce
siamese pre-training tasks, on which Transformer backbones continue to
demonstrate ever stronger results than CNNs. People come to believe that
Transformers or self-attention modules are inherently more suitable than CNNs
in the context of SSL. However, it is noteworthy that most if not all prior
arts of SSL with CNNs chose the standard ResNets as their backbones, whose
architecture effectiveness is known to already lag behind advanced Vision
Transformers. Therefore, it remains unclear whether the self-attention
operation is crucial for the recent advances in SSL - or CNNs can deliver the
same excellence with more advanced designs, too? Can we close the SSL
performance gap between Transformers and CNNs? To answer these intriguing
questions, we apply self-supervised pre-training to the recently proposed,
stronger lager-kernel CNN architecture and conduct an apple-to-apple comparison
with Transformers, in their SSL performance. Our results show that we are able
to build pure CNN SSL architectures that perform on par with or better than the
best SSL-trained Transformers, by just scaling up convolutional kernel sizes
besides other small tweaks. Impressively, when transferring to the downstream
tasks \texttt{MS COCO} detection and segmentation, our SSL pre-trained CNN
model (trained in 100 epochs) achieves the same good performance as the
300-epoch pre-trained Transformer counterpart. We hope this work can help to
better understand what is essential (or not) for self-supervised learning
backbones.
- Abstract(参考訳): ビジョントランスフォーマーは、その優れたスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、徐々に畳み込みニューラルネットワーク(cnns)を置き換える。
自己教師付き学習(SSL)に関する最近の研究は、トランスフォーマーのバックボーンがCNNよりもはるかに強力な結果を示し続けているシム事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
しかし、cnnによるsslの以前の技術が標準のresnetsをバックボーンとして選んだとしても、そのアーキテクチャの有効性は先進的なビジョントランスフォーマーに遅れをとっていることが知られていることは注目に値する。
したがって、SSLの最近の進歩に自己注意操作が不可欠なのか、それともCNNがより高度な設計で同じ卓越性を提供できるのか、まだ不明である。
TransformerとCNN間のSSLパフォーマンスギャップを埋めることができますか?
これらの興味深い質問に答えるために、最近提案されたより強力なラガーカーネルCNNアーキテクチャに自己教師付き事前トレーニングを適用し、SSL性能においてトランスフォーマーとリンゴ対アップルの比較を行う。
以上の結果から,畳み込みカーネルサイズをスケールアップするだけでなく,小さな変更を加えるだけで,最高のSSLトレーニングトランスフォーマーと同程度に動作する純粋なCNN SSLアーキテクチャを構築できることが示唆された。
驚くべきことに、ダウンストリームタスク \textt{ms coco}検出とセグメンテーションに転送すると、sslプリトレーニングcnnモデル(100epochsでトレーニング)は、300epochプリトレーニングトランスフォーマーと同等の性能を実現します。
この研究が、自己監督学習バックボーンに必要な(あるいはそうでない)ものを理解する上で有効であることを願っています。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Can CNNs Be More Robust Than Transformers? [29.615791409258804]
視覚変換器は10年間、画像認識における畳み込みニューラルネットワーク(CNN)の長い支配を揺るがしている。
最近の研究では、トランスフォーマーは、異なるトレーニング設定に関わらず、本質的にCNNよりも堅牢であることがわかった。
トランスフォーマーのこのような優位性は、それ自体が自己注意型アーキテクチャであると考えられる。
論文 参考訳(メタデータ) (2022-06-07T17:17:07Z) - Are Transformers More Robust Than CNNs? [17.47001041042089]
トランスフォーマーとCNNの最初のフェア・イン・ディープス比較を提供する。
CNNは、敵の攻撃を防御するトランスフォーマーと同じくらい簡単に堅牢である。
我々の主張は、そのようなより強力な一般化はトランスフォーマーの自己注意型アーキテクチャに大きく恩恵を受けていることを示唆している。
論文 参考訳(メタデータ) (2021-11-10T00:18:59Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。