論文の概要: CMT: Convolutional Neural Networks Meet Vision Transformers
- arxiv url: http://arxiv.org/abs/2107.06263v2
- Date: Thu, 15 Jul 2021 06:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 10:47:57.265444
- Title: CMT: Convolutional Neural Networks Meet Vision Transformers
- Title(参考訳): cmt:畳み込みニューラルネットワークが視覚トランスフォーマーに対応
- Authors: Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu and
Yunhe Wang
- Abstract要約: 画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
- 参考スコア(独自算出の注目度): 68.10025999594883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have been successfully applied to image recognition tasks
due to their ability to capture long-range dependencies within an image.
However, there are still gaps in both performance and computational cost
between transformers and existing convolutional neural networks (CNNs). In this
paper, we aim to address this issue and develop a network that can outperform
not only the canonical transformers, but also the high-performance
convolutional models. We propose a new transformer based hybrid network by
taking advantage of transformers to capture long-range dependencies, and of
CNNs to model local features. Furthermore, we scale it to obtain a family of
models, called CMTs, obtaining much better accuracy and efficiency than
previous convolution and transformer based models. In particular, our CMT-S
achieves 83.5% top-1 accuracy on ImageNet, while being 14x and 2x smaller on
FLOPs than the existing DeiT and EfficientNet, respectively. The proposed CMT-S
also generalizes well on CIFAR10 (99.2%), CIFAR100 (91.7%), Flowers (98.7%),
and other challenging vision datasets such as COCO (44.3% mAP), with
considerably less computational cost.
- Abstract(参考訳): 視覚トランスフォーマーは、画像内の長距離依存性をキャプチャできるため、画像認識タスクにうまく適用されている。
しかし、トランスと既存の畳み込みニューラルネットワーク(CNN)のパフォーマンスと計算コストにはまだギャップがある。
本稿では,この課題に対処し,標準変圧器だけでなく,高性能な畳み込みモデルにも勝るネットワークを構築することを目的とする。
本稿では,長距離依存性を捉えるためにトランスを活用し,局所的な特徴をモデル化するためのcnnを用いて,新しいトランスフォーマティブ・ハイブリッド・ネットワークを提案する。
さらに,従来の畳み込みモデルやトランスフォーマーモデルよりも精度と効率が向上し,cmtsと呼ばれるモデル群を得るようにスケールする。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
提案されたCMT-Sは、CIFAR10 (99.2%)、CIFAR100 (91.7%)、花(98.7%)、COCO (44.3% mAP)などの挑戦的なビジョンデータセットにもよく応用でき、計算コストもかなり少ない。
関連論文リスト
- SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and
Transformers [18.073368359464915]
本稿では,CNNとトランスフォーマーの両方の改善に有効であることを示す,SCSC(Spatial Cross-scale Convolution)というモジュールを提案する。
顔認識タスクでは、FaceResNet with SCSCは2.7%、FLOPは68%、パラメータは79%改善できる。
ImageNetの分類タスクでは、SCSCのSwin TransformerはFLOPを22%減らしてさらにパフォーマンスが向上し、CSCSのResNetも同様の複雑さで5.3%改善できる。
論文 参考訳(メタデータ) (2023-08-14T12:49:39Z) - ConvFormer: Closing the Gap Between CNN and Vision Transformers [12.793893108426742]
複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T06:45:01Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - CoAtNet: Marrying Convolution and Attention for All Data Sizes [93.93381069705546]
トランスフォーマーはモデル容量が大きくなる傾向にあるが、正しい帰納バイアスの欠如により、畳み込みネットワークよりも一般化が悪くなる可能性がある。
2つの重要な洞察から構築されたハイブリッドモデルのファミリーであるCoAtNetsを紹介します。
実験により、我々のCoAtNetsはリソース制約の異なる最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-06-09T04:35:31Z) - Aggregating Nested Transformers [42.96279765218623]
重なり合わない画像ブロックに局所変換器をネストして階層的に集約するという考え方について検討する。
ブロック集約関数はブロック間非ローカル情報通信において重要な役割を果たす。
実験の結果,提案手法のNesTはより高速に収束し,優れた一般化を実現するためには,より少ないトレーニングデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-05-26T17:56:48Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。