論文の概要: Multi-perspective Contrastive Logit Distillation
- arxiv url: http://arxiv.org/abs/2411.10693v1
- Date: Sat, 16 Nov 2024 04:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:31.253150
- Title: Multi-perspective Contrastive Logit Distillation
- Title(参考訳): マルチパースペクティブ・コントラスト・ロジット蒸留法
- Authors: Qi Wang, Jinjia Zhou,
- Abstract要約: マルチパースペクティブ・コントラシブ・ロジット蒸留法(MCLD)を提案する。
本稿では,インスタンスワイドCLD,サンプルワイドCLD,カテゴリワイドCLDの3つの主要コンポーネントからなるMCLDを提案する。
- 参考スコア(独自算出の注目度): 12.589031892370809
- License:
- Abstract: We propose a novel and efficient logit distillation method, Multi-perspective Contrastive Logit Distillation (MCLD), which leverages contrastive learning to distill logits from multiple perspectives in knowledge distillation. Recent research on logit distillation has primarily focused on maximizing the information learned from the teacher model's logits to enhance the performance of the student model. To this end, we propose MCLD, which consists of three key components: Instance-wise CLD, Sample-wise CLD, and Category-wise CLD. These components are designed to facilitate the transfer of more information from the teacher's logits to the student model. Comprehensive evaluations on image classification tasks using CIFAR-100 and ImageNet, alongside representation transferability assessments on STL-10 and Tiny-ImageNet, highlight the significant advantages of our method. The knowledge distillation with our MCLD, surpasses existing state-of-the-art methods.
- Abstract(参考訳): コントラスト学習を利用して知識蒸留の多面的観点からロジットを蒸留する,新規で効率的なロジット蒸留法であるマルチパースペクティブ・コントラスト・ロジット蒸留法(MCLD)を提案する。
ロジット蒸留に関する最近の研究は、主に教師モデルのロジットから得られた情報を最大化し、学生モデルの性能を高めることに重点を置いている。
この目的のために,インスタンスワイドCLD,サンプルワイドCLD,カテゴリワイドCLDの3つの主要コンポーネントからなるMCLDを提案する。
これらのコンポーネントは、教師のロジットから学生モデルへのさらなる情報伝達を容易にするように設計されている。
CIFAR-100 と ImageNet を用いた画像分類タスクの包括的評価を行い,STL-10 と Tiny-ImageNet の表現伝達可能性の評価とともに,本手法の利点を浮き彫りにした。
我々のMCLDによる知識蒸留は、既存の最先端の手法を超越している。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - A Novel Self-Knowledge Distillation Approach with Siamese Representation
Learning for Action Recognition [6.554259611868312]
自己知識蒸留は、学生のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。
本稿では,シームズ表現学習による新しい自己知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-09-03T01:56:58Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。