論文の概要: CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective
- arxiv url: http://arxiv.org/abs/2404.14109v1
- Date: Mon, 22 Apr 2024 11:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:06:38.288806
- Title: CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective
- Title(参考訳): CKD: サンプルの観点からの対照的な知識蒸留
- Authors: Wencheng Zhu, Xin Zhou, Pengfei Zhu, Yu Wang, Qinghua Hu,
- Abstract要約: 本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
- 参考スコア(独自算出の注目度): 48.99488315273868
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present a simple yet effective contrastive knowledge distillation approach, which can be formulated as a sample-wise alignment problem with intra- and inter-sample constraints. Unlike traditional knowledge distillation methods that concentrate on maximizing feature similarities or preserving class-wise semantic correlations between teacher and student features, our method attempts to recover the "dark knowledge" by aligning sample-wise teacher and student logits. Specifically, our method first minimizes logit differences within the same sample by considering their numerical values, thus preserving intra-sample similarities. Next, we bridge semantic disparities by leveraging dissimilarities across different samples. Note that constraints on intra-sample similarities and inter-sample dissimilarities can be efficiently and effectively reformulated into a contrastive learning framework with newly designed positive and negative pairs. The positive pair consists of the teacher's and student's logits derived from an identical sample, while the negative pairs are formed by using logits from different samples. With this formulation, our method benefits from the simplicity and efficiency of contrastive learning through the optimization of InfoNCE, yielding a run-time complexity that is far less than $O(n^2)$, where $n$ represents the total number of training samples. Furthermore, our method can eliminate the need for hyperparameter tuning, particularly related to temperature parameters and large batch sizes. We conduct comprehensive experiments on three datasets including CIFAR-100, ImageNet-1K, and MS COCO. Experimental results clearly confirm the effectiveness of the proposed method on both image classification and object detection tasks. Our source codes will be publicly available at https://github.com/wencheng-zhu/CKD.
- Abstract(参考訳): 本稿では, サンプル内およびサンプル間制約を伴うサンプルワイドアライメント問題として定式化できる, 単純かつ効果的な対照的な知識蒸留手法を提案する。
特徴の類似度を最大化したり、教師と学生の特徴のクラスワイドな意味的相関を保留する従来の知識蒸留法とは異なり、本手法はサンプルワイドの教師と学生のロジットを整列させることで「ダークナレッジ」を回復させようとする。
具体的には,本手法はまず,その数値を考慮し,サンプル内のロジット差を最小化し,サンプル内類似性を保存する。
次に、異なるサンプル間の相違を利用して意味の相違を橋渡しする。
サンプル間の類似性やサンプル間の相違性に対する制約は、新しく設計された正対と負のペアを持つ対照的な学習フレームワークに効率的かつ効果的に再構成できることに留意すべきである。
正の対は、同じサンプルから派生した教師の対と生徒の対で構成され、負の対は異なるサンプルの対を用いて形成される。
この定式化により、InfoNCEの最適化によるコントラスト学習の単純さと効率性が向上し、O(n^2)$よりはるかに少ない実行時の複雑性が得られる。
さらに,本手法は,特に温度パラメータやバッチサイズに大きな関連があるため,ハイパーパラメータチューニングの必要性を排除できる。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
実験により,提案手法が画像分類と物体検出の両方に有効であることを明らかにした。
ソースコードはhttps://github.com/wencheng-zhu/CKD.comで公開されます。
関連論文リスト
- Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification [1.292108130501585]
本稿では,クラスタリング駆動型機能微調整法(HC-FT)を提案する。
提案手法はCAMELYON16とBRACSの両方で評価され,それぞれ97.13%,85.85%のAUCが得られた。
論文 参考訳(メタデータ) (2024-06-02T08:53:45Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Additional Positive Enables Better Representation Learning for Medical
Images [17.787804928943057]
本稿では,SOTA(State-of-the-art)自己教師型学習フレームワークであるBYOLに対して,新たな肯定的なペアを特定する方法を提案する。
各画像に対して、他の画像から最も類似したサンプルを付加陽性として選択し、BYOL損失とともに特徴を引き出す。
2つの公開医療データセットの実験結果から,提案手法が分類性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-31T18:37:02Z) - Contrastive Principal Component Learning: Modeling Similarity by
Augmentation Overlap [50.48888534815361]
コントラシブ・プリンシパル・コンポーネント・ラーニング(CPCL)手法を提案する。
CPCLにより、学習された低次元埋め込みは、標本間の増大分布の類似性を理論的に保存する。
論文 参考訳(メタデータ) (2022-06-01T13:03:58Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Almost-Matching-Exactly for Treatment Effect Estimation under Network
Interference [73.23326654892963]
本研究では,観測ネットワーク上でユニットが接続されたランダム化実験から直接処理効果を回復するマッチング手法を提案する。
本手法は, 近傍グラフ内の一意部分グラフの個数にほぼ一致する。
論文 参考訳(メタデータ) (2020-03-02T15:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。