論文の概要: Confidence Conditioned Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2107.06993v1
- Date: Tue, 6 Jul 2021 00:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-18 12:35:22.387354
- Title: Confidence Conditioned Knowledge Distillation
- Title(参考訳): 信頼条件付き知識蒸留
- Authors: Sourav Mishra and Suresh Sundaram
- Abstract要約: 教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
- 参考スコア(独自算出の注目度): 8.09591217280048
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, a novel confidence conditioned knowledge distillation (CCKD)
scheme for transferring the knowledge from a teacher model to a student model
is proposed. Existing state-of-the-art methods employ fixed loss functions for
this purpose and ignore the different levels of information that need to be
transferred for different samples. In addition to that, these methods are also
inefficient in terms of data usage. CCKD addresses these issues by leveraging
the confidence assigned by the teacher model to the correct class to devise
sample-specific loss functions (CCKD-L formulation) and targets (CCKD-T
formulation). Further, CCKD improves the data efficiency by employing
self-regulation to stop those samples from participating in the distillation
process on which the student model learns faster. Empirical evaluations on
several benchmark datasets show that CCKD methods achieve at least as much
generalization performance levels as other state-of-the-art methods while being
data efficient in the process. Student models trained through CCKD methods do
not retain most of the misclassifications commited by the teacher model on the
training set. Distillation through CCKD methods improves the resilience of the
student models against adversarial attacks compared to the conventional KD
method. Experiments show at least 3% increase in performance against
adversarial attacks for the MNIST and the Fashion MNIST datasets, and at least
6% increase for the CIFAR10 dataset.
- Abstract(参考訳): 本稿では,教師モデルから学生モデルへ知識を伝達するための新しい信頼性条件付き知識蒸留(CCKD)手法を提案する。
既存の最先端の手法では、この目的のために固定損失関数を使用し、異なるサンプルに転送する必要がある異なるレベルの情報を無視している。
加えて、これらの手法はデータ利用の点で非効率である。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに活用して、サンプル固有損失関数(CCKD-L)とターゲット(CCKD-T)を考案する。
さらに、CCKDは自己規制を用いて、学生モデルがより速く学習する蒸留プロセスに参加するのを防ぐことにより、データ効率を向上させる。
いくつかのベンチマークデータセットの実証評価では、CCKD法は、そのプロセスでデータ効率を保ちながら、他の最先端手法と同等以上の一般化性能を達成している。
CCKD法で訓練された学生モデルは、トレーニングセット上の教師モデルによって実行される誤分類の大部分を保持していない。
CCKD法による蒸留により,従来のKD法と比較して,生徒モデルの逆攻撃に対するレジリエンスが向上する。
実験では、MNISTとFashion MNISTデータセットの敵攻撃に対する少なくとも3%のパフォーマンスが増加し、CIFAR10データセットの少なくとも6%が増加した。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free
Continual Learning [14.379472108242235]
正規化戦略として知識蒸留(KD)を併用した模範自由クラスインクリメンタルラーニング(CIL)について検討した。
KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。
近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。
論文 参考訳(メタデータ) (2023-08-18T13:22:59Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。