論文の概要: The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers
- arxiv url: http://arxiv.org/abs/2302.10494v4
- Date: Fri, 27 Sep 2024 14:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:24:36.847954
- Title: The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers
- Title(参考訳): 視覚変換器の効率的な知識蒸留におけるマスキングの役割
- Authors: Seungwoo Son, Jegwang Ryu, Namhoon Lee, Jaeho Lee,
- Abstract要約: 本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは極めて有効であり,教師のFLOPの最大50%を学生の精度の低下なしに節約できることがわかった。
- 参考スコア(独自算出の注目度): 14.467509261354458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective method for training lightweight vision models. However, acquiring teacher supervision for training samples is often costly, especially from large-scale models like vision transformers (ViTs). In this paper, we develop a simple framework to reduce the supervision cost of ViT distillation: masking out a fraction of input tokens given to the teacher. By masking input tokens, one can skip the computations associated with the masked tokens without requiring any change to teacher parameters or architecture. We find that masking patches with the lowest student attention scores is highly effective, saving up to 50% of teacher FLOPs without any drop in student accuracy, while other masking criterion leads to suboptimal efficiency gains. Through in-depth analyses, we reveal that the student-guided masking provides a good curriculum to the student, making teacher supervision easier to follow during the early stage and challenging in the later stage.
- Abstract(参考訳): 知識蒸留は、軽量視覚モデルの訓練に有効な方法である。
しかし、特に視覚変換器(ViT)のような大規模モデルでは、トレーニングサンプルの教師監督を取得するのにコストがかかることが多い。
本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発し,教師に与えられた少量の入力トークンを隠蔽する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは、学生の精度を低下させることなく、教師のFLOPの最大50%を節約し、他のマスキング基準は、最適以下の効率向上をもたらす。
より詳細な分析により,学生が指導するマスキングが学生に良いカリキュラムを提供することが明らかとなり,教師の指導が早い段階で容易に受けられるようになり,後半の課題も解決できた。
関連論文リスト
- Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T20:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。