論文の概要: MaskedKD: Efficient Distillation of Vision Transformers with Masked
Images
- arxiv url: http://arxiv.org/abs/2302.10494v2
- Date: Wed, 31 May 2023 04:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:11:11.110719
- Title: MaskedKD: Efficient Distillation of Vision Transformers with Masked
Images
- Title(参考訳): maskedkd: マスク画像を用いた視覚トランスフォーマーの効率的な蒸留
- Authors: Seungwoo Son and Namhoon Lee and Jaeho Lee
- Abstract要約: 本稿では,推論における教師の運営コストを大幅に削減する戦略であるMaskedKDを提案する。
MaskedKDは、教師に供給された画像パッチトークンの一部を隠蔽することで、推論時に教師を走らせるコストを下げる。
我々は,MaskedKDが学生のパフォーマンス低下を伴わずに蒸留コストを50%削減できることを実証した。
- 参考スコア(独自算出の注目度): 18.237639015171425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective method for training lightweight
models, but it introduces a significant amount of computational overhead to the
training cost, as the method requires acquiring teacher supervisions on
training samples. This additional cost -- called distillation cost -- is most
pronounced when we employ large-scale teacher models such as vision
transformers (ViTs). We present MaskedKD, a simple yet effective strategy that
can significantly reduce the cost of distilling ViTs without sacrificing the
prediction accuracy of the student model. Specifically, MaskedKD diminishes the
cost of running teacher at inference by masking a fraction of image patch
tokens fed to the teacher, and therefore skipping the computations required to
process those patches. The mask locations are selected to prevent masking away
the core features of an image that the student model uses for prediction. This
mask selection mechanism operates based on some attention score of the student
model, which is already computed during the student forward pass, and thus
incurs almost no additional computation. Without sacrificing the final student
accuracy, MaskedKD dramatically reduces the amount of computations required for
distilling ViTs. We demonstrate that MaskedKD can save up the distillation cost
by $50\%$ without any student performance drop, leading to approximately $28\%$
drop in the overall training FLOPs.
- Abstract(参考訳): 知識蒸留は軽量モデルの訓練に有効な方法であるが、その方法には教師の指導を受ける必要があるため、訓練コストにかなりの計算オーバーヘッドをもたらす。
蒸留コストと呼ばれるこの追加コストは、視覚変換器(ViT)のような大規模な教師モデルを採用する際に最も顕著である。
学生モデルの予測精度を犠牲にすることなく,ViTの蒸留コストを大幅に削減できる簡易かつ効果的な方法であるMaskedKDを提案する。
具体的には、 maskedkd は教師に供給されるイメージパッチトークンのごく一部をマスキングすることで、推論における教師の実行コストを削減し、そのパッチを処理するのに必要な計算をスキップする。
マスク位置は、学生モデルが予測に使用する画像の核となる特徴をマスキングするのを防ぐために選択される。
このマスク選択機構は、学生のフォワードパス中に既に計算されている学生モデルの注意スコアに基づいて動作し、そのため追加の計算がほとんど行われない。
最終学生の精度を犠牲にすることなく、MaskedKDはViTの蒸留に必要な計算量を劇的に削減する。
maskedkdは、学生の成績が低下することなく、蒸留コストを50〜%削減できることを実証し、全体のトレーニングフラップが約28〜%低下することを示した。
関連論文リスト
- Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with
Uncertainty [21.082196680422328]
使い捨て蒸留のための多様な教師モデルを訓練するのは経済的ではない。
我々は,教師の推論アンサンブルモデルである蒸留用Avatarsという新しい概念を導入した。
Avatar Knowledge Distillation AKDは、既存の方法や洗練と根本的に異なる。
論文 参考訳(メタデータ) (2023-05-04T10:43:11Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。