論文の概要: Attention Distillation: self-supervised vision transformer students need
more guidance
- arxiv url: http://arxiv.org/abs/2210.00944v1
- Date: Mon, 3 Oct 2022 14:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:50:32.702435
- Title: Attention Distillation: self-supervised vision transformer students need
more guidance
- Title(参考訳): アテンション蒸留 : 自己監督型視覚変換器の学生にはもっと指導が必要だ
- Authors: Kai Wang, Fei Yang, Joost van de Weijer
- Abstract要約: 自己監督型視覚変換器(ViT-SSKD)の知識蒸留に関する研究
我々は,ImageNet-SubsetとImageNet-1Kの実験において,既存の自己教師型知識蒸留法(SSKD)よりも優れていることを示す。
また、この小さなViT-Tモデルを自己教師あり学習に適用した最初の人物である。
- 参考スコア(独自算出の注目度): 37.37272042838411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has been widely applied to train high-quality vision
transformers. Unleashing their excellent performance on memory and compute
constraint devices is therefore an important research topic. However, how to
distill knowledge from one self-supervised ViT to another has not yet been
explored. Moreover, the existing self-supervised knowledge distillation (SSKD)
methods focus on ConvNet based architectures are suboptimal for ViT knowledge
distillation. In this paper, we study knowledge distillation of self-supervised
vision transformers (ViT-SSKD). We show that directly distilling information
from the crucial attention mechanism from teacher to student can significantly
narrow the performance gap between both. In experiments on ImageNet-Subset and
ImageNet-1K, we show that our method AttnDistill outperforms existing
self-supervised knowledge distillation (SSKD) methods and achieves
state-of-the-art k-NN accuracy compared with self-supervised learning (SSL)
methods learning from scratch (with the ViT-S model). We are also the first to
apply the tiny ViT-T model on self-supervised learning. Moreover, AttnDistill
is independent of self-supervised learning algorithms, it can be adapted to ViT
based SSL methods to improve the performance in future research. The code is
here: https://github.com/wangkai930418/attndistill
- Abstract(参考訳): 自己教師付き学習は高品質な視覚トランスフォーマーの訓練に広く用いられている。
したがって、優れたパフォーマンスをメモリと計算制約デバイスに解き放つことは重要な研究テーマである。
しかし、ある自己監督型ViTから別のViTへの知識の抽出方法はまだ研究されていない。
さらに,既存の自己監督型知識蒸留(SSKD)手法は,ConvNetに基づくアーキテクチャに重点を置いている。
本稿では,自己監督型視覚変換器(ViT-SSKD)の知識蒸留について検討する。
教師から生徒への重要な注意機構から情報を直接蒸留することで,両者のパフォーマンスギャップを大幅に狭めることができる。
ImageNet-Subset と ImageNet-1K の実験では,我々の手法は既存の自己教師付き知識蒸留法(SSKD) よりも優れており,かつ,自己教師付き学習法(SSL) と比較して最先端のk-NN 精度を実現する。
自己監督学習にvit-tモデルを適用したのは、私たちも最初です。
さらに、AttnDistillは自己教師付き学習アルゴリズムとは独立しており、ViTベースのSSLメソッドに適応して将来の研究におけるパフォーマンスを向上させることができる。
https://github.com/wangkai930418/attndistill
関連論文リスト
- Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - SiT: Self-supervised vIsion Transformer [23.265568744478333]
自然言語処理(NLP)では、自己監督学習とトランスフォーマーはすでに選択の方法です。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
小規模データセットの下流分類タスクに対して,事前学習したsatを微調整可能であることを示す。
論文 参考訳(メタデータ) (2021-04-08T08:34:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。