論文の概要: ConvFormer: Closing the Gap Between CNN and Vision Transformers
- arxiv url: http://arxiv.org/abs/2209.07738v1
- Date: Fri, 16 Sep 2022 06:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:49:50.047121
- Title: ConvFormer: Closing the Gap Between CNN and Vision Transformers
- Title(参考訳): ConvFormer: CNNとVision Transformerのギャップを埋める
- Authors: Zimian Wei, Hengyue Pan, Xin Niu, Dongsheng Li
- Abstract要約: 複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
- 参考スコア(独自算出の注目度): 12.793893108426742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have shown excellent performance in computer vision
tasks. However, the computation cost of their (local) self-attention mechanism
is expensive. Comparatively, CNN is more efficient with built-in inductive
bias. Recent works show that CNN is promising to compete with vision
transformers by learning their architecture design and training protocols.
Nevertheless, existing methods either ignore multi-level features or lack
dynamic prosperity, leading to sub-optimal performance. In this paper, we
propose a novel attention mechanism named MCA, which captures different
patterns of input images by multiple kernel sizes and enables input-adaptive
weights with a gating mechanism. Based on MCA, we present a neural network
named ConvFormer. ConvFormer adopts the general architecture of vision
transformers, while replacing the (local) self-attention mechanism with our
proposed MCA. Extensive experimental results demonstrated that ConvFormer
outperforms similar size vision transformers(ViTs) and convolutional neural
networks (CNNs) in various tasks. For example, ConvFormer-S, ConvFormer-L
achieve state-of-the-art performance of 82.8%, 83.6% top-1 accuracy on ImageNet
dataset. Moreover, ConvFormer-S outperforms Swin-T by 1.5 mIoU on ADE20K, and
0.9 bounding box AP on COCO with a smaller model size. Code and models will be
available.
- Abstract(参考訳): 視覚トランスフォーマーはコンピュータビジョンタスクにおいて優れた性能を示している。
しかし、その(局所的な)自己注意機構の計算コストは高くつく。
対照的に、CNNはインダクティブバイアスを組み込んだ方が効率的です。
最近の研究は、CNNがアーキテクチャ設計とトレーニングプロトコルを学ぶことでビジョントランスフォーマーと競合することを約束していることを示している。
それでも、既存のメソッドはマルチレベル機能を無視したり、ダイナミックな繁栄を欠いたりする。
本稿では,複数のカーネルサイズで入力画像の異なるパターンをキャプチャし,ゲーティング機構による入力適応重み付けを可能にするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
convformerは視覚トランスフォーマーの一般的なアーキテクチャを採用し、(ローカルな)セルフアテンション機構を提案のmcaに置き換えています。
広範囲な実験の結果、convformerは様々なタスクにおいて、同様のサイズビジョントランスフォーマー(vits)と畳み込みニューラルネットワーク(cnns)よりも優れていることが示されている。
例えば、ConvFormer-S、ConvFormer-Lは、ImageNetデータセット上で82.8%、83.6%の最先端のパフォーマンスを達成する。
さらに、ConvFormer-S は ADE20K 上で1.5 mIoU で Swin-T より優れており、COCO 上で 0.9 のバウンディングボックス AP はモデルサイズが小さい。
コードとモデルは利用可能だ。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Vision Pair Learning: An Efficient Training Framework for Image
Classification [0.8223798883838329]
TransformerとCNNは、表現学習と収束速度を補完する。
ビジョンペアラーニング(VPL)は、トランスフォーマーブランチ、CNNブランチ、ペアラーニングモジュールで構成されるネットワークを構築する。
VPLは、ImageNet-1kバリデーションセットのViT-BaseとResNet-50のトップ1の精度を、それぞれ83.47%と79.61%に向上させる。
論文 参考訳(メタデータ) (2021-12-02T03:45:16Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。