論文の概要: Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners
- arxiv url: http://arxiv.org/abs/2306.15876v1
- Date: Wed, 28 Jun 2023 02:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:04:47.242653
- Title: Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners
- Title(参考訳): ハイブリッド蒸留:マスクオートエンコーダとコントラスト学習者との接続
- Authors: Bowen Shi, Xiaopeng Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni
Zou, Hongkai Xiong, Qi Tian
- Abstract要約: コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
- 参考スコア(独自算出の注目度): 102.20090188997301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning has been evolving from traditional supervised
training to Contrastive Learning (CL) and Masked Image Modeling (MIM). Previous
works have demonstrated their pros and cons in specific scenarios, i.e., CL and
supervised pre-training excel at capturing longer-range global patterns and
enabling better feature discrimination, while MIM can introduce more local and
diverse attention across all transformer layers. In this paper, we explore how
to obtain a model that combines their strengths. We start by examining previous
feature distillation and mask feature reconstruction methods and identify their
limitations. We find that their increasing diversity mainly derives from the
asymmetric designs, but these designs may in turn compromise the discrimination
ability. In order to better obtain both discrimination and diversity, we
propose a simple but effective Hybrid Distillation strategy, which utilizes
both the supervised/CL teacher and the MIM teacher to jointly guide the student
model. Hybrid Distill imitates the token relations of the MIM teacher to
alleviate attention collapse, as well as distills the feature maps of the
supervised/CL teacher to enable discrimination. Furthermore, a progressive
redundant token masking strategy is also utilized to reduce the distilling
costs and avoid falling into local optima. Experiment results prove that Hybrid
Distill can achieve superior performance on different benchmarks.
- Abstract(参考訳): 表現学習は従来の教師付きトレーニングからコントラスト学習(CL)やマスケッド画像モデリング(MIM)へと進化してきた。
従来の研究では、CLや教師付き事前訓練のエクササイズといった特定のシナリオにおいて、より長い範囲のグローバルパターンを捕捉し、より優れた特徴識別を可能にするとともに、MIMはすべてのトランスフォーマー層により局所的で多様な注意を向けることが可能であった。
本稿では,その強みを組み合わせたモデルを得る方法について検討する。
まず,前回の特徴蒸留法とマスクの特徴再現法について検討し,その限界を明らかにした。
多様性の増大は、主に非対称な設計に由来するが、これらの設計は結果的に識別能力を損なう可能性がある。
識別と多様性の両立を図るため,教師/CL教師とMIM教師の双方を併用し,学生モデルを指導する簡易かつ効果的なハイブリッド蒸留戦略を提案する。
Hybrid DistillはMIM教師のトークン関係を模倣し、注意崩壊を緩和し、教師/CL教師の特徴マップを蒸留して差別を可能にする。
さらに、プログレッシブな冗長なトークンマスキング戦略を用いて蒸留コストを削減し、局所最適状態に陥ることを避ける。
実験の結果、ハイブリッド蒸留は異なるベンチマークで優れた性能を達成できることが証明された。
関連論文リスト
- DFMSD: Dual Feature Masking Stage-wise Knowledge Distillation for Object Detection [6.371066478190595]
DFMSDと呼ばれる新しい二重特徴マスキングヘテロジニアス蒸留フレームワークがオブジェクト検出のために提案されている。
マスキング強化戦略とステージワイズ学習を組み合わせて特徴マスキング再構築を改善する。
オブジェクト検出タスクの実験は、我々のアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-07-18T04:19:14Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Contrastive Knowledge Amalgamation for Unsupervised Image Classification [2.6392087010521728]
Contrastive Knowledge Amalgamation (CKA) は、複数の教師モデルから協調目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。
クラス内モデルとクラス間モデルとの対比損失は、異なるクラスの表現間の距離を拡大するように設計されている。
このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベルの分布差を最小限に抑えるために導入された。
論文 参考訳(メタデータ) (2023-07-27T11:21:14Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Hybrid Discriminative-Generative Training via Contrastive Learning [96.56164427726203]
エネルギーベースモデルのハイブリッド識別・生成訓練の観点から、コントラスト学習と教師あり学習の直接的な関連性を示す。
CIFAR-10 および CIFAR-100 上の WideResNet の分類精度において,エネルギーベース損失の近似の具体的な選択が既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-17T15:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。