論文の概要: Transformed CNNs: recasting pre-trained convolutional layers with
self-attention
- arxiv url: http://arxiv.org/abs/2106.05795v1
- Date: Thu, 10 Jun 2021 14:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 21:13:10.545064
- Title: Transformed CNNs: recasting pre-trained convolutional layers with
self-attention
- Title(参考訳): Transformed CNNs:自己注意で事前学習した畳み込み層をリキャストする
- Authors: St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos
- Abstract要約: 視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
- 参考スコア(独自算出の注目度): 17.96659165573821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) have recently emerged as a powerful alternative to
convolutional networks (CNNs). Although hybrid models attempt to bridge the gap
between these two architectures, the self-attention layers they rely on induce
a strong computational bottleneck, especially at large spatial resolutions. In
this work, we explore the idea of reducing the time spent training these layers
by initializing them as convolutional layers. This enables us to transition
smoothly from any pre-trained CNN to its functionally identical hybrid model,
called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the
resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2%
top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved
robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by
the T-CNN, providing deeper insights into the fruitful interplay between
convolutions and self-attention. Finally, we experiment initializing the T-CNN
from a partially trained CNN, and find that it reaches better performance than
the corresponding hybrid model trained from scratch, while reducing training
time.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。
ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。
本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。
これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。
わずか50回の微調整で、結果として得られたT-CNNはCNN(ResNet50-RSではImageNet-1kで+2.2%、ImageNet-Cでは+11%)よりも大幅に性能が向上した。
我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。
最後に、部分的に訓練されたCNNからT-CNNを初期化する実験を行い、トレーニング時間を短縮しつつ、スクラッチからトレーニングした対応するハイブリッドモデルよりも優れた性能が得られることを示した。
関連論文リスト
- Model Parallel Training and Transfer Learning for Convolutional Neural Networks by Domain Decomposition [0.0]
ディープ畳み込みニューラルネットワーク(CNN)は、幅広い画像処理アプリケーションで非常に成功したことが示されている。
モデルパラメータの増大と大量のトレーニングデータの増加により、複雑なCNNを効率的に訓練するための並列化戦略が必要である。
論文 参考訳(メタデータ) (2024-08-26T17:35:01Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - An automated approach for improving the inference latency and energy
efficiency of pretrained CNNs by removing irrelevant pixels with focused
convolutions [0.8706730566331037]
本稿では,事前学習したCNNを再学習せずによりエネルギー効率良くするための,新しい自動化手法を提案する。
修正された集中畳み込み操作は、様々なトレーニング済みCNNにおいて、推論遅延(25%まで)とエネルギーコスト(最大22%まで)を節約します。
論文 参考訳(メタデータ) (2023-10-11T18:07:37Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Patching Weak Convolutional Neural Network Models through Modularization
and Composition [19.986199290508925]
分類タスクのための畳み込みニューロンネットワーク(CNN)モデルは、しばしば不満足に機能する。
圧縮モジュラー化手法であるCNNSplitterを提案し、$N$クラス分類のための強力なCNNモデルを$N$より小さなCNNモジュールに分解する。
CNNSplitterは、モジュール化と構成により弱いCNNモデルにパッチを適用できることを示し、ロバストなCNNモデルを開発するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2022-09-11T15:26:16Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。