論文の概要: Discriminative and Consistent Representation Distillation
- arxiv url: http://arxiv.org/abs/2407.11802v4
- Date: Mon, 10 Feb 2025 14:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:26:53.518278
- Title: Discriminative and Consistent Representation Distillation
- Title(参考訳): 識別的かつ一貫性のある表現蒸留
- Authors: Nikolaos Giakoumoglou, Tania Stathaki,
- Abstract要約: 識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
- 参考スコア(独自算出の注目度): 6.24302896438145
- License:
- Abstract: Knowledge Distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. While contrastive learning has shown promise in self-supervised learning by creating discriminative representations, its application in knowledge distillation remains limited and focuses primarily on discrimination, neglecting the structural relationships captured by the teacher model. To address this limitation, we propose Discriminative and Consistent Distillation (DCD), which employs a contrastive loss along with a consistency regularization to minimize the discrepancy between the distributions of teacher and student representations. Our method introduces learnable temperature and bias parameters that adapt during training to balance these complementary objectives, replacing the fixed hyperparameters commonly used in contrastive learning approaches. Through extensive experiments on CIFAR-100 and ImageNet ILSVRC-2012, we demonstrate that DCD achieves state-of-the-art performance, with the student model sometimes surpassing the teacher's accuracy. Furthermore, we show that DCD's learned representations exhibit superior cross-dataset generalization when transferred to Tiny ImageNet and STL-10.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。
コントラスト学習は、差別的な表現を作ることによって自己指導的学習において有望であるが、知識の蒸留におけるその応用は依然として限定的であり、主に教師モデルが捉えた構造的関係を無視して差別に焦点を当てている。
この制限に対処するために,教師と生徒の表現の分布の相違を最小限に抑えるために,整合正則化とともに対照的な損失を生かした識別・一貫性蒸留(DCD)を提案する。
本手法では,これらの相補的目標のバランスを保ちながら学習中に適応する学習可能な温度パラメータとバイアスパラメータを導入し,対照的な学習手法でよく用いられる固定されたハイパーパラメータを置き換える。
CIFAR-100 と ImageNet ILSVRC-2012 の広範な実験を通じて,DCD が最先端のパフォーマンスを達成することを示す。
さらに,DCD の学習表現は Tiny ImageNet や STL-10 に転送した場合,より優れたクロスデータセットの一般化を示すことを示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge [17.382306203152943]
Dynamic Guidance Adversarial Distillation (DGAD) フレームワークは、差分サンプルの重要性の課題に取り組む。
DGADは蒸留焦点を動的に調整するためにミスクラス化認識分割(MAP)を使用している。
Error-corrective Label Swapping (ELS) は、クリーン入力と逆入力の両方で教師の誤分類を補正する。
論文 参考訳(メタデータ) (2024-09-03T05:52:37Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Data Upcycling Knowledge Distillation for Image Super-Resolution [25.753554952896096]
知識蒸留(KD)は、教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。
本稿では,教師モデルの知識を学習者モデルに伝達するために,学習データから得られたドメイン内データを用いて,データリサイクル知識蒸留(DuKD)を提案する。
論文 参考訳(メタデータ) (2023-09-25T14:13:26Z) - Categorical Relation-Preserving Contrastive Knowledge Distillation for
Medical Image Classification [75.27973258196934]
そこで本研究では,一般的な平均教師モデルであるCRCKD(Categorical Relation-Reserving Contrastive Knowledge Distillation)アルゴリズムを提案する。
この正規化により、学生モデルの特徴分布はクラス内類似度が高く、クラス間分散を示す。
CCDとCRPの貢献により、我々のCRCKDアルゴリズムはより包括的に関係知識を蒸留することができる。
論文 参考訳(メタデータ) (2021-07-07T13:56:38Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。