論文の概要: Multi-perspective Contrastive Logit Distillation
- arxiv url: http://arxiv.org/abs/2411.10693v1
- Date: Sat, 16 Nov 2024 04:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:48.301137
- Title: Multi-perspective Contrastive Logit Distillation
- Title(参考訳): マルチパースペクティブ・コントラスト・ロジット蒸留法
- Authors: Qi Wang, Jinjia Zhou,
- Abstract要約: マルチパースペクティブ・コントラシブ・ロジット蒸留法(MCLD)を提案する。
本稿では,インスタンスワイドCLD,サンプルワイドCLD,カテゴリワイドCLDの3つの主要コンポーネントからなるMCLDを提案する。
- 参考スコア(独自算出の注目度): 12.589031892370809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel and efficient logit distillation method, Multi-perspective Contrastive Logit Distillation (MCLD), which leverages contrastive learning to distill logits from multiple perspectives in knowledge distillation. Recent research on logit distillation has primarily focused on maximizing the information learned from the teacher model's logits to enhance the performance of the student model. To this end, we propose MCLD, which consists of three key components: Instance-wise CLD, Sample-wise CLD, and Category-wise CLD. These components are designed to facilitate the transfer of more information from the teacher's logits to the student model. Comprehensive evaluations on image classification tasks using CIFAR-100 and ImageNet, alongside representation transferability assessments on STL-10 and Tiny-ImageNet, highlight the significant advantages of our method. The knowledge distillation with our MCLD, surpasses existing state-of-the-art methods.
- Abstract(参考訳): コントラスト学習を利用して知識蒸留の多面的観点からロジットを蒸留する,新規で効率的なロジット蒸留法であるマルチパースペクティブ・コントラスト・ロジット蒸留法(MCLD)を提案する。
ロジット蒸留に関する最近の研究は、主に教師モデルのロジットから得られた情報を最大化し、学生モデルの性能を高めることに重点を置いている。
この目的のために,インスタンスワイドCLD,サンプルワイドCLD,カテゴリワイドCLDの3つの主要コンポーネントからなるMCLDを提案する。
これらのコンポーネントは、教師のロジットから学生モデルへのさらなる情報伝達を容易にするように設計されている。
CIFAR-100 と ImageNet を用いた画像分類タスクの包括的評価を行い,STL-10 と Tiny-ImageNet の表現伝達可能性の評価とともに,本手法の利点を浮き彫りにした。
我々のMCLDによる知識蒸留は、既存の最先端の手法を超越している。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Bit-mask Robust Contrastive Knowledge Distillation for Unsupervised
Semantic Hashing [71.47723696190184]
セマンティックハッシュのための革新的なBit-mask Robust Contrastive Knowledge Distillation (BRCD)法を提案する。
BRCDはセマンティックハッシュモデルの蒸留のために特別に考案されている。
論文 参考訳(メタデータ) (2024-03-10T03:33:59Z) - DistillCSE: Distilled Contrastive Learning for Sentence Embeddings [32.6620719893457]
本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。
DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。
本稿では, 暗黙の正規化としてのグループ-Pシャッフル戦略と, 複数の教師コンポーネントのロジット平均化という, 知識蒸留の単純かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-10-20T13:45:59Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Survey on Recent Teacher-student Learning Studies [0.0]
知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNに知識を伝達する方法である。
近年の知識蒸留には、補助蒸留、カリキュラム蒸留、マスク蒸留、デカップリング蒸留などがある。
論文 参考訳(メタデータ) (2023-04-10T14:30:28Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - A Novel Self-Knowledge Distillation Approach with Siamese Representation
Learning for Action Recognition [6.554259611868312]
自己知識蒸留は、学生のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。
本稿では,シームズ表現学習による新しい自己知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-09-03T01:56:58Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。