論文の概要: SiT: Self-supervised vIsion Transformer
- arxiv url: http://arxiv.org/abs/2104.03602v1
- Date: Thu, 8 Apr 2021 08:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:17:03.447604
- Title: SiT: Self-supervised vIsion Transformer
- Title(参考訳): SiT:自己監督型VIsion Transformer
- Authors: Sara Atito and Muhammad Awais and Josef Kittler
- Abstract要約: 自然言語処理(NLP)では、自己監督学習とトランスフォーマーはすでに選択の方法です。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
小規模データセットの下流分類タスクに対して,事前学習したsatを微調整可能であることを示す。
- 参考スコア(独自算出の注目度): 23.265568744478333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning methods are gaining increasing traction in computer
vision due to their recent success in reducing the gap with supervised
learning. In natural language processing (NLP) self-supervised learning and
transformers are already the methods of choice. The recent literature suggests
that the transformers are becoming increasingly popular also in computer
vision. So far, the vision transformers have been shown to work well when
pretrained either using a large scale supervised data or with some kind of
co-supervision, e.g. in terms of teacher network. These supervised pretrained
vision transformers achieve very good results in downstream tasks with minimal
changes. In this work we investigate the merits of self-supervised learning for
pretraining image/vision transformers and then using them for downstream
classification tasks. We propose Self-supervised vIsion Transformers (SiT) and
discuss several self-supervised training mechanisms to obtain a pretext model.
The architectural flexibility of SiT allows us to use it as an autoencoder and
work with multiple self-supervised tasks seamlessly. We show that a pretrained
SiT can be finetuned for a downstream classification task on small scale
datasets, consisting of a few thousand images rather than several millions. The
proposed approach is evaluated on standard datasets using common protocols. The
results demonstrate the strength of the transformers and their suitability for
self-supervised learning. We outperformed existing self-supervised learning
methods by large margin. We also observed that SiT is good for few shot
learning and also showed that it is learning useful representation by simply
training a linear classifier on top of the learned features from SiT.
Pretraining, finetuning, and evaluation codes will be available under:
https://github.com/Sara-Ahmed/SiT.
- Abstract(参考訳): 近年,教師あり学習とのギャップを減らし,コンピュータビジョンにおける自己指導型学習手法の推進力が高まっている。
自然言語処理(NLP)では、自己教師型学習とトランスフォーマーがすでに選択方法となっている。
近年の文献によると、トランスフォーマーはコンピュータビジョンでも人気が高まっている。
これまでのところ、視覚変換器は大規模な教師付きデータやある種のコスーパービジョンを用いて事前訓練されたときにうまく機能することが示されている。
教師のネットワークに関してです
これらの教師付き事前訓練されたビジョントランスフォーマーは、最小限の変更で下流タスクに非常に良い結果をもたらす。
本研究では,イメージ/ビジョン変換器の事前学習における自己教師型学習のメリットについて検討し,下流の分類タスクに利用した。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
SiTのアーキテクチャの柔軟性により、自動エンコーダとして使用でき、複数の自己管理タスクをシームレスに処理できます。
学習済みのsatは、数百万ではなく数千の画像からなる小規模データセットのダウンストリーム分類タスクのために微調整可能であることを示す。
提案手法は共通プロトコルを用いて標準データセット上で評価される。
その結果, 変圧器の強度と自己教師あり学習への適合性が示された。
我々は既存の自己教師あり学習手法を大差で上回った。
また,sitはショット学習に適しており,sitから学習した特徴の上に線形分類器を訓練することで,有用な表現を学習していることを示した。
事前トレーニング、微調整、評価コードは、https://github.com/Sara-Ahmed/SiT.comで利用できる。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T16:12:20Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。