論文の概要: Multi-perspective Contrastive Logit Distillation
- arxiv url: http://arxiv.org/abs/2411.10693v2
- Date: Sat, 08 Mar 2025 09:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:07.076465
- Title: Multi-perspective Contrastive Logit Distillation
- Title(参考訳): マルチパースペクティブ・コントラスト・ロジット蒸留法
- Authors: Qi Wang, Jinjia Zhou,
- Abstract要約: 本稿では,ロジット蒸留の性能と有効性を大幅に向上させる,新規で効率的なロジット蒸留法であるマルチパースペクティブ・コントラスト・ロジット蒸留(MCLD)を導入する。
MCLDは、CIFAR-100、ImageNet、Tiny-ImageNet、STL-10など、複数のデータセットにまたがって、画像分類、転送学習タスクにおける最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.589031892370809
- License:
- Abstract: In previous studies on knowledge distillation, the significance of logit distillation has frequently been overlooked. To revitalize logit distillation, we present a novel perspective by reconsidering its computation based on the semantic properties of logits and exploring how to utilize it more efficiently. Logits often contain a substantial amount of high-level semantic information; however, the conventional approach of employing logits to compute Kullback-Leibler (KL) divergence does not account for their semantic properties. Furthermore, this direct KL divergence computation fails to fully exploit the potential of logits. To address these challenges, we introduce a novel and efficient logit distillation method, Multi-perspective Contrastive Logit Distillation (MCLD), which substantially improves the performance and efficacy of logit distillation. In comparison to existing logit distillation methods and complex feature distillation methods, MCLD attains state-of-the-art performance in image classification, and transfer learning tasks across multiple datasets, including CIFAR-100, ImageNet, Tiny-ImageNet, and STL-10. Additionally, MCLD exhibits superior training efficiency and outstanding performance with distilling on Vision Transformers, further emphasizing its notable advantages. This study unveils the vast potential of logits in knowledge distillation and seeks to offer valuable insights for future research.
- Abstract(参考訳): 知識蒸留に関するこれまでの研究では、ロジット蒸留の重要性がしばしば見過ごされてきた。
本稿では,ロジット蒸留を活性化するために,ロジットの意味的特性に基づいて計算を再考し,より効率的に利用する方法を探ることで,新たな視点を示す。
ログには大量の高レベルのセマンティック情報が含まれていることが多いが、KL(Kulback-Leibler)の発散を計算するためにロジットを用いるという従来のアプローチは、それらのセマンティックな性質を考慮していない。
さらに、この直接KL分散計算では、ロジットの可能性を完全に活用できない。
これらの課題に対処するために,ロジト蒸留の性能と有効性を大幅に向上させる,新規で効率的なロジト蒸留法であるマルチパースペクティブ・コントラスト・ロジト蒸留(MCLD)を導入する。
既存のロジット蒸留法や複雑な特徴蒸留法と比較して,CIFAR-100, ImageNet, Tiny-ImageNet, STL-10 など,複数のデータセットにまたがる伝達学習タスクは,画像分類における最先端の性能を達成している。
さらに、MCLDはVision Transformersを蒸留することで優れた訓練効率と優れた性能を示し、その顕著な利点を強調している。
この研究は、知識蒸留におけるロジットの膨大な可能性を明らかにし、将来の研究に価値ある洞察を提供しようとしている。
関連論文リスト
- Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures [6.231548250160585]
MLDR-KD(Multi-Level Decoupled Knowledge Distillation)は、CodeAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上した。
論文 参考訳(メタデータ) (2025-02-10T06:41:20Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - A Novel Self-Knowledge Distillation Approach with Siamese Representation
Learning for Action Recognition [6.554259611868312]
自己知識蒸留は、学生のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。
本稿では,シームズ表現学習による新しい自己知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-09-03T01:56:58Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。