論文の概要: Wasserstein Contrastive Representation Distillation
- arxiv url: http://arxiv.org/abs/2012.08674v2
- Date: Mon, 29 Mar 2021 00:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 06:18:58.320875
- Title: Wasserstein Contrastive Representation Distillation
- Title(参考訳): Wasserstein Contrastive Representation Distillation
- Authors: Liqun Chen, Dong Wang, Zhe Gan, Jingjing Liu, Ricardo Henao, Lawrence
Carin
- Abstract要約: We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
- 参考スコア(独自算出の注目度): 114.24609306495456
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The primary goal of knowledge distillation (KD) is to encapsulate the
information of a model learned from a teacher network into a student network,
with the latter being more compact than the former. Existing work, e.g., using
Kullback-Leibler divergence for distillation, may fail to capture important
structural knowledge in the teacher network and often lacks the ability for
feature generalization, particularly in situations when teacher and student are
built to address different classification tasks. We propose Wasserstein
Contrastive Representation Distillation (WCoRD), which leverages both primal
and dual forms of Wasserstein distance for KD. The dual form is used for global
knowledge transfer, yielding a contrastive learning objective that maximizes
the lower bound of mutual information between the teacher and the student
networks. The primal form is used for local contrastive knowledge transfer
within a mini-batch, effectively matching the distributions of features between
the teacher and the student networks. Experiments demonstrate that the proposed
WCoRD method outperforms state-of-the-art approaches on privileged information
distillation, model compression and cross-modal transfer.
- Abstract(参考訳): 知識蒸留(KD)の主な目的は、教師ネットワークから学習したモデルの情報を学生ネットワークにカプセル化することであり、後者は前者よりもコンパクトである。
既存の作業、例えば蒸留にKulback-Leiblerの発散を用いると、教師ネットワークにおける重要な構造的知識を捉えることができず、特に教師と学生が異なる分類課題に対処するために構築されている状況において、特徴一般化の能力に欠けることが多い。
我々は,kd に対するwasserstein 距離の原型と双対型の両方を利用するwasserstein contrastive representation distillation (wcord) を提案する。
二重形式はグローバルな知識伝達に使われ、教師と学生ネットワークの間の相互情報の低境界を最大化する対照的な学習目標をもたらす。
初等形はミニバッチ内の局所的なコントラスト的知識伝達に使用され、教師と学生ネットワーク間の特徴の分布を効果的にマッチングする。
実験により,wcord法が特権的情報蒸留,モデル圧縮,クロスモーダル転送の最先端手法に勝ることを実証した。
関連論文リスト
- LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Multi-level Knowledge Distillation [13.71183256776644]
教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-01T15:27:15Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。