論文の概要: Generic-to-Specific Distillation of Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2302.14771v1
- Date: Tue, 28 Feb 2023 17:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:10:57.767539
- Title: Generic-to-Specific Distillation of Masked Autoencoders
- Title(参考訳): マスクオートエンコーダの汎用蒸留
- Authors: Wei Huang, Zhiliang Peng, Li Dong, Furu Wei, Jianbin Jiao, Qixiang Ye
- Abstract要約: マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。
G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
- 参考スコア(独自算出の注目度): 119.21281960831651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision Transformers (ViTs) driven by self-supervised pre-training
mechanisms achieved unprecedented progress. Lightweight ViT models limited by
the model capacity, however, benefit little from those pre-training mechanisms.
Knowledge distillation defines a paradigm to transfer representations from
large (teacher) models to small (student) ones. However, the conventional
single-stage distillation easily gets stuck on task-specific transfer, failing
to retain the task-agnostic knowledge crucial for model generalization. In this
study, we propose generic-to-specific distillation (G2SD), to tap the potential
of small ViT models under the supervision of large models pre-trained by masked
autoencoders. In generic distillation, decoder of the small model is encouraged
to align feature predictions with hidden representations of the large model, so
that task-agnostic knowledge can be transferred. In specific distillation,
predictions of the small model are constrained to be consistent with those of
the large model, to transfer task-specific features which guarantee task
performance. With G2SD, the vanilla ViT-Small model respectively achieves
98.7%, 98.1% and 99.3% the performance of its teacher (ViT-Base) for image
classification, object detection, and semantic segmentation, setting a solid
baseline for two-stage vision distillation. Code will be available at
https://github.com/pengzhiliang/G2SD.
- Abstract(参考訳): 自己監督型事前学習機構によって駆動される大型視覚変換器(ViT)は前例のない進歩を遂げた。
しかし、モデルキャパシティによって制限された軽量ViTモデルは、トレーニング前のメカニズムからはほとんど恩恵を受けない。
知識蒸留は、大きな(教師)モデルから小さな(学生)モデルへ表現を伝達するパラダイムを定義する。
しかし, 従来の単一段蒸留は, モデル一般化に不可欠なタスク非依存の知識を保たず, タスク固有の移行に容易に立ち往生する。
本研究では,マスク付きオートエンコーダによって事前訓練された大型モデルの監督の下で,小型ViTモデルのポテンシャルを活かす汎用蒸留(G2SD)を提案する。
汎用蒸留では,小型モデルのデコーダを用いて,特徴予測と大規模モデルの隠れ表現を一致させることで,タスク非依存の知識を伝達することができる。
特定の蒸留では、小さなモデルの予測は大きなモデルの予測と一致し、タスクパフォーマンスを保証するタスク固有の特徴を転送するように制約される。
G2SDでは、バニラのViT-Smallモデルは、イメージ分類、オブジェクト検出、セマンティックセグメンテーションのための教師(ViT-Base)のパフォーマンスの98.7%、98.1%、99.3%を達成した。
コードはhttps://github.com/pengzhiliang/G2SDで入手できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。