論文の概要: Supervised Masked Knowledge Distillation for Few-Shot Transformers
- arxiv url: http://arxiv.org/abs/2303.15466v2
- Date: Wed, 29 Mar 2023 01:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:08:19.874674
- Title: Supervised Masked Knowledge Distillation for Few-Shot Transformers
- Title(参考訳): Few-Shot 変圧器の仮設知識蒸留
- Authors: Han Lin, Guangxing Han, Jiawei Ma, Shiyuan Huang, Xudong Lin, Shih-Fu
Chang
- Abstract要約: そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
- 参考スコア(独自算出の注目度): 36.46755346410219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) emerge to achieve impressive performance on many
data-abundant computer vision tasks by capturing long-range dependencies among
local features. However, under few-shot learning (FSL) settings on small
datasets with only a few labeled data, ViT tends to overfit and suffers from
severe performance degradation due to its absence of CNN-alike inductive bias.
Previous works in FSL avoid such problem either through the help of
self-supervised auxiliary losses, or through the dextile uses of label
information under supervised settings. But the gap between self-supervised and
supervised few-shot Transformers is still unfilled. Inspired by recent advances
in self-supervised knowledge distillation and masked image modeling (MIM), we
propose a novel Supervised Masked Knowledge Distillation model (SMKD) for
few-shot Transformers which incorporates label information into
self-distillation frameworks. Compared with previous self-supervised methods,
we allow intra-class knowledge distillation on both class and patch tokens, and
introduce the challenging task of masked patch tokens reconstruction across
intra-class images. Experimental results on four few-shot classification
benchmark datasets show that our method with simple design outperforms previous
methods by a large margin and achieves a new start-of-the-art. Detailed
ablation studies confirm the effectiveness of each component of our model. Code
for this paper is available here: https://github.com/HL-hanlin/SMKD.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は、ローカル機能間の長距離依存関係をキャプチャすることで、多くのデータ冗長なコンピュータビジョンタスクで印象的なパフォーマンスを実現する。
しかし、少数のラベル付きデータしか持たない小さなデータセットのFSL設定では、ViTは過度に適合する傾向にあり、CNNのような誘導バイアスがないため、パフォーマンスが著しく低下する傾向にある。
FSLの以前の作業は、自己監督的な補助的損失の助けによって、または、監督された設定の下でラベル情報のデキスタイル的利用によって、そのような問題を避ける。
しかし、自己監督トランスフォーマーと監督された少数のトランスフォーマーの間のギャップは未埋めだ。
近年の自己監督型知識蒸留とマスク画像モデリング(MIM)の進歩に触発されて,ラベル情報を自己蒸留フレームワークに組み込んだ数ショットトランスフォーマーのための新しいスーパーバイザードマスケド知識蒸留モデル(SMKD)を提案する。
従来の自己監督手法と比較して,クラスおよびパッチトークンの双方において,クラス内知識の蒸留を可能にするとともに,クラス内画像間でのマスク付きパッチトークン再構築の課題を導入する。
4つの数ショット分類ベンチマークデータセットにおける実験結果から,単純な設計による手法は,従来の手法よりも大きなマージンを示し,新たな技術開始を達成した。
詳細なアブレーション研究により, モデルの各成分の有効性が確認された。
この論文のコードは、https://github.com/HL-hanlin/SMKD.comにある。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning [10.29251906347605]
本稿では,視覚変換器(ViT)モデルを用いた効果的かつ効率的な数ショット学習を実現するために,新しいマスク誘導型視覚変換器(MG-ViT)を提案する。
MG-ViTモデルは、一般的な微調整ベースのViTモデルと比較して、性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T07:25:33Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。