論文の概要: ConvNets vs. Transformers: Whose Visual Representations are More
Transferable?
- arxiv url: http://arxiv.org/abs/2108.05305v1
- Date: Wed, 11 Aug 2021 16:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 14:41:46.882211
- Title: ConvNets vs. Transformers: Whose Visual Representations are More
Transferable?
- Title(参考訳): ConvNets vs. Transformers: どのビジュアル表現が転送可能か?
- Authors: Hong-Yu Zhou, Chixiang Lu, Sibei Yang, Yizhou Yu
- Abstract要約: 本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
- 参考スコア(独自算出の注目度): 49.62201738334348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have attracted much attention from computer vision
researchers as they are not restricted to the spatial inductive bias of
ConvNets. However, although Transformer-based backbones have achieved much
progress on ImageNet classification, it is still unclear whether the learned
representations are as transferable as or even more transferable than ConvNets'
features. To address this point, we systematically investigate the transfer
learning ability of ConvNets and vision transformers in 15 single-task and
multi-task performance evaluations. Given the strong correlation between the
performance of pre-trained models and transfer learning, we include 2 residual
ConvNets (i.e., R-101x3 and R-152x4) and 3 Transformer-based visual backbones
(i.e., ViT-B, ViT-L and Swin-B), which have close error rates on ImageNet, that
indicate similar transfer learning performance on downstream datasets.
We observe consistent advantages of Transformer-based backbones on 13
downstream tasks (out of 15), including but not limited to fine-grained
classification, scene recognition (classification, segmentation and depth
estimation), open-domain classification, face recognition, etc. More
specifically, we find that two ViT models heavily rely on whole network
fine-tuning to achieve performance gains while Swin Transformer does not have
such a requirement. Moreover, vision transformers behave more robustly in
multi-task learning, i.e., bringing more improvements when managing mutually
beneficial tasks and reducing performance losses when tackling irrelevant
tasks. We hope our discoveries can facilitate the exploration and exploitation
of vision transformers in the future.
- Abstract(参考訳): 視覚トランスフォーマーはコンベネットの空間的インダクティブバイアスに制限されないため、コンピュータビジョン研究者から多くの注目を集めている。
しかし、TransformerベースのバックボーンはImageNet分類において大きな進歩を遂げているが、学習された表現がConvNetsの機能と同じくらい転送可能であるか、さらに転送可能であるかは、まだ不明である。
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について系統的に検討する。
事前学習されたモデルのパフォーマンスと転送学習の強い相関関係を考えると、残差の2つのconvnet(すなわち、r-101x3とr-152x4)と、imagenetでエラーレートが近い3つのトランスフォーマーベースのビジュアルバックボーン(つまり、vit-b、vit-l、swain-b)が、下流データセットで同様の転送学習性能を示している。
13の下流タスク(うち15)におけるトランスフォーマーベースバックボーンの一貫した優位性は,細粒度分類,シーン認識(分類,セグメンテーション,深さ推定),オープンドメイン分類,顔認識などに限定されない。
より具体的には、2つのViTモデルが性能向上のためにネットワーク全体の微調整に大きく依存しているのに対して、Swin Transformerはそのような要件を持っていない。
さらに、視覚変換器はマルチタスク学習においてより堅牢に振る舞う、すなわち、相互に有益なタスクを管理する際に改善をもたらし、無関係なタスクに取り組む際にパフォーマンス損失を減らす。
我々の発見が将来のビジョントランスフォーマーの探索と活用を促進することを願っている。
関連論文リスト
- Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。