論文の概要: Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
- arxiv url: http://arxiv.org/abs/2211.11943v1
- Date: Tue, 22 Nov 2022 01:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:54:35.362948
- Title: Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
- Title(参考訳): Conv2Former: 視覚認識のためのシンプルなトランスフォーマースタイルのConvNet
- Authors: Qibin Hou, Cheng-Ze Lu, Ming-Ming Cheng, Jiashi Feng
- Abstract要約: 本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
- 参考スコア(独自算出の注目度): 158.15602882426379
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper does not attempt to design a state-of-the-art method for visual
recognition but investigates a more efficient way to make use of convolutions
to encode spatial features. By comparing the design principles of the recent
convolutional neural networks ConvNets) and Vision Transformers, we propose to
simplify the self-attention by leveraging a convolutional modulation operation.
We show that such a simple approach can better take advantage of the large
kernels (>=7x7) nested in convolutional layers. We build a family of
hierarchical ConvNets using the proposed convolutional modulation, termed
Conv2Former. Our network is simple and easy to follow. Experiments show that
our Conv2Former outperforms existent popular ConvNets and vision Transformers,
like Swin Transformer and ConvNeXt in all ImageNet classification, COCO object
detection and ADE20k semantic segmentation.
- Abstract(参考訳): 本稿では,視覚認識のための最先端手法の設計を試みず,畳み込みを用いた空間特徴の符号化をより効率的に行う方法について検討する。
近年の畳み込みニューラルネットワーク(convnets)と視覚トランスフォーマー(vision transformers)の設計原理を比較することにより,畳み込み変調演算を活用し,自己着脱を単純化する。
このような単純なアプローチは、畳み込み層にネストした大きなカーネル(>=7x7)をうまく活用できることを示す。
我々はConv2Formerと呼ばれる畳み込み変調を用いた階層型ConvNetのファミリーを構築する。
私たちのネットワークはシンプルで、フォローも簡単です。
実験によると、私たちのConv2Formerは、すべてのImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセマンティックセグメンテーションにおいて、一般的なConvNetやビジョントランスフォーマーよりも優れています。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。