Fugu-MT 論文翻訳(概要): MaskedKD: Efficient Distillation of Vision Transformers with Masked Images

論文の概要: MaskedKD: Efficient Distillation of Vision Transformers with Masked Images

arxiv url: http://arxiv.org/abs/2302.10494v1
Date: Tue, 21 Feb 2023 07:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-22 15:55:55.117126
Title: MaskedKD: Efficient Distillation of Vision Transformers with Masked Images
Title（参考訳）: maskedkd: マスク画像を用いた視覚トランスフォーマーの効率的な蒸留
Authors: Seungwoo Son and Namhoon Lee and Jaeho Lee
Abstract要約: MaskedKDは、ViT蒸留のトレーニングコストを削減するための、シンプルで効果的な方法である。我々は,MaskedKDが教師モデル上での推論の実行コストの最大50%を,生徒のパフォーマンス低下を伴わずに節約できることを実証した。
参考スコア（独自算出の注目度）: 18.237639015171425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation is a popular and effective regularization technique for training lightweight models, but it also adds significant overhead to the training cost. The drawback is most pronounced when we use large-scale models as our teachers, such as vision transformers (ViTs). We present MaskedKD, a simple yet effective method for reducing the training cost of ViT distillation. MaskedKD masks a fraction of image patch tokens fed to the teacher to save the teacher inference cost. The tokens to mask are determined based on the last layer attention score of the student model, to which we provide the full image. Without requiring any architectural change of the teacher or making sacrifices in the student performance, MaskedKD dramatically reduces the computations and time required for distilling ViTs. We demonstrate that MaskedKD can save up to $50\%$ of the cost of running inference on the teacher model without any performance drop on the student, leading to approximately $28\%$ drop in the teacher and student compute combined.
Abstract（参考訳）: 知識蒸留は軽量モデルのトレーニングに人気があり効果的な正規化技術であるが、トレーニングコストにかなりのオーバーヘッドを与える。視覚変換器(ViT)などの大規模モデルを教師として使用する場合,その欠点が最も顕著である。本稿では,ViT蒸留のトレーニングコストを削減するための簡易かつ効果的な方法であるMaskedKDを提案する。 maskedkdは教師に送られた画像パッチトークンの一部をマスクし、教師の推論コストを節約する。マスキングのトークンは、学生モデルの最後の層注目スコアに基づいて決定され、フルイメージが提供されます。教師のアーキテクチャの変更を必要とせず、学生のパフォーマンスを犠牲にすることなく、MaskedKDはViTの蒸留に必要な計算と時間を劇的に削減する。我々は,MaskedKDが教師モデル上での推論の実行コストの最大50\%を,生徒のパフォーマンス低下を伴わずに削減できることを示し,教師と生徒の計算の合計で約28\%のコストを削減できることを示した。

関連論文リスト

Rethinking Random Masking in Self Distillation on ViT [0.0]
本研究は,DINOフレームワークに焦点をあて,自己蒸留におけるランダムマスキングの役割に焦点を当てた。具体的には、学生のローカルな視点と教師のグローバルな視点を元の、マスキングされていない形で保ちながら、学生のグローバルな視点にのみランダムマスキングを適用する。ミニ画像Netデータセット上でDINO-Tinyを用いてアプローチを評価し、この非対称な設定下でのランダムマスキングにより、より堅牢できめ細かな注意マップが得られ、最終的に下流の性能が向上することを示す。
論文参考訳（メタデータ） (2025-06-12T11:19:07Z)
Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文参考訳（メタデータ） (2025-04-12T09:40:14Z)
Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文参考訳（メタデータ） (2023-12-21T10:27:52Z)
Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文参考訳（メタデータ） (2023-06-28T02:19:35Z)
Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文参考訳（メタデータ） (2023-05-16T17:50:09Z)
Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文参考訳（メタデータ） (2023-04-12T15:38:23Z)
Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文参考訳（メタデータ） (2023-03-25T03:31:46Z)
Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文参考訳（メタデータ） (2022-10-05T08:08:55Z)
Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文参考訳（メタデータ） (2022-09-08T16:55:19Z)
What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文参考訳（メタデータ） (2022-03-23T20:52:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。