論文の概要: Self-Supervised Learning with Swin Transformers
- arxiv url: http://arxiv.org/abs/2105.04553v1
- Date: Mon, 10 May 2021 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 16:14:25.579655
- Title: Self-Supervised Learning with Swin Transformers
- Title(参考訳): スイニングトランスを用いた自己指導型学習
- Authors: Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao,
Han Hu
- Abstract要約: ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチは基本的にMoCo v2とBYOLの組み合わせであり、ImageNet-1K線形評価で合理的に高い精度を達成するために調整されている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
- 参考スコア(独自算出の注目度): 24.956637957269926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are witnessing a modeling shift from CNN to Transformers in computer
vision. In this paper, we present a self-supervised learning approach called
MoBY, with Vision Transformers as its backbone architecture. The approach is
basically a combination of MoCo v2 and BYOL, tuned to achieve reasonably high
accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using
DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is
slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the
backbone, but with much lighter tricks.
More importantly, the general-purpose Swin Transformer backbone enables us to
also evaluate the learnt representations on downstream tasks such as object
detection and semantic segmentation, in contrast to a few recent approaches
built on ViT/DeiT which only report linear evaluation results on ImageNet-1K
due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results
can facilitate more comprehensive evaluation of self-supervised learning
methods designed for Transformer architectures. Our code and models are
available at https://github.com/SwinTransformer/Transformer-SSL, which will be
continually enriched.
- Abstract(参考訳): 我々はコンピュータビジョンにおけるCNNからトランスフォーマーへのモデリングシフトを目撃している。
本稿では,ビジョントランスフォーマーをバックボーンアーキテクチャとする,MoBYと呼ばれる自己教師型学習手法を提案する。
このアプローチは基本的にはMoCo v2とBYOLの組み合わせで、ImageNet-1Kの線形評価において、DeiT-SとSwin-Tを使ってそれぞれ72.8%と75.0%のTop-1の精度を300-epochのトレーニングで達成するように調整されている。
このパフォーマンスは、最近のMoCo v3やDINOのバックボーンとしてDeiTを採用したものよりも若干優れていますが、もっと軽いトリックがあります。
さらに、汎用Swin Transformerのバックボーンにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクの学習表現を評価できるが、ViT/DeiTでは、これらの密接な予測タスクに慣れていないために、ImageNet-1K上で線形評価結果しか報告しない、ViT/DeiT上に構築された最近のアプローチとは対照的である。
我々は,トランスフォーマーアーキテクチャ用に設計された自己教師あり学習手法をより包括的に評価できることを願っている。
私たちのコードとモデルはhttps://github.com/SwinTransformer/Transformer-SSLで利用可能です。
関連論文リスト
- Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - AutoFormer: Searching Transformers for Visual Recognition [97.60915598958968]
本稿では,視覚トランスフォーマー検索専用のワンショットアーキテクチャ検索フレームワークであるAutoFormerを提案する。
AutoFormerは、スーパーネットトレーニング中に同じレイヤ内の異なるブロックの重みを絡み合わせる。
我々は、AutoFormer-tiny/small/baseが5.7M/22.9M/53.7Mパラメータを持つImageNetで74.7%/81.7%/82.4%のトップ-1精度を達成したことを示す。
論文 参考訳(メタデータ) (2021-07-01T17:59:30Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - SiT: Self-supervised vIsion Transformer [23.265568744478333]
自然言語処理(NLP)では、自己監督学習とトランスフォーマーはすでに選択の方法です。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
小規模データセットの下流分類タスクに対して,事前学習したsatを微調整可能であることを示す。
論文 参考訳(メタデータ) (2021-04-08T08:34:04Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。