論文の概要: Emerging Properties in Self-Supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2104.14294v1
- Date: Thu, 29 Apr 2021 12:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 19:57:33.372474
- Title: Emerging Properties in Self-Supervised Vision Transformers
- Title(参考訳): 自己監督型視覚変換器の創発特性
- Authors: Mathilde Caron, Hugo Touvron, Ishan Misra, Herv\'e J\'egou, Julien
Mairal, Piotr Bojanowski, Armand Joulin
- Abstract要約: コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
- 参考スコア(独自算出の注目度): 57.36837447500544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we question if self-supervised learning provides new
properties to Vision Transformer (ViT) that stand out compared to convolutional
networks (convnets). Beyond the fact that adapting self-supervised methods to
this architecture works particularly well, we make the following observations:
first, self-supervised ViT features contain explicit information about the
semantic segmentation of an image, which does not emerge as clearly with
supervised ViTs, nor with convnets. Second, these features are also excellent
k-NN classifiers, reaching 78.3% top-1 on ImageNet with a small ViT. Our study
also underlines the importance of momentum encoder, multi-crop training, and
the use of small patches with ViTs. We implement our findings into a simple
self-supervised method, called DINO, which we interpret as a form of
self-distillation with no labels. We show the synergy between DINO and ViTs by
achieving 80.1% top-1 on ImageNet in linear evaluation with ViT-Base.
- Abstract(参考訳): 本稿では,畳み込みネットワーク(convnets)と比較して,視覚トランスフォーマー(vit)に自己教師付き学習が新たな特性をもたらすかどうかを問う。
自己組織化されたViT特徴には、教師付きViTやコンブネットでは明らかに現れない、画像の意味的セグメンテーションに関する明示的な情報が含まれる。
第二に、これらの機能は優れたk-NN分類器であり、小さなViTでImageNetで78.3%のトップ-1に達した。
また, 運動量エンコーダの重要性, マルチクロップトレーニング, およびViTを用いたパッチの使用について検討した。
本研究は, ラベルのない自己蒸留方式として, DINOと呼ばれる簡易自己監督法を用いて実施した。
我々は,VT-Base を用いた線形評価において,ImageNet 上で 80.1% のトップ-1 を達成することで,DINO と ViT の相乗効果を示す。
関連論文リスト
- Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Position Labels for Self-Supervised Vision Transformer [1.3406858660972554]
位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。
絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。
我々の位置ラベルは、様々なViTの変種と組み合わさって、簡単にトランスフォーマーに接続できる。
論文 参考訳(メタデータ) (2022-06-10T10:29:20Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。