論文の概要: NormKD: Normalized Logits for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2308.00520v1
- Date: Tue, 1 Aug 2023 12:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 14:13:01.448990
- Title: NormKD: Normalized Logits for Knowledge Distillation
- Title(参考訳): NormKD: 知識蒸留のための正規化ログ
- Authors: Zhihao Chi, Tu Zheng, Hengjia Li, Zheng Yang, Boxi Wu, Binbin Lin,
Deng Cai
- Abstract要約: 我々はロジットに基づく知識蒸留のための正規化知識蒸留(NormKD)を提案する。
バニラKDと比較して、NormKDは余分な計算やストレージコストがほとんどないが、画像分類のためにCIRAR-100とImageNetで大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 21.016485305883062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logit based knowledge distillation gets less attention in recent years since
feature based methods perform better in most cases. Nevertheless, we find it
still has untapped potential when we re-investigate the temperature, which is a
crucial hyper-parameter to soften the logit outputs. For most of the previous
works, it was set as a fixed value for the entire distillation procedure.
However, as the logits from different samples are distributed quite variously,
it is not feasible to soften all of them to an equal degree by just a single
temperature, which may make the previous work transfer the knowledge of each
sample inadequately. In this paper, we restudy the hyper-parameter temperature
and figure out its incapability to distill the knowledge from each sample
sufficiently when it is a single value. To address this issue, we propose
Normalized Knowledge Distillation (NormKD), with the purpose of customizing the
temperature for each sample according to the characteristic of the sample's
logit distribution. Compared to the vanilla KD, NormKD barely has extra
computation or storage cost but performs significantly better on CIRAR-100 and
ImageNet for image classification. Furthermore, NormKD can be easily applied to
the other logit based methods and achieve better performance which can be
closer to or even better than the feature based method.
- Abstract(参考訳): ログベースの知識蒸留は、ほとんどのケースで機能ベースの手法がより良く機能するため、近年は注目されなくなっている。
それでも、ロジット出力を軟化するための重要なハイパーパラメータである温度を再調査する際には、まだポテンシャルが失われていないことが分かっています。
以前の作品のほとんどにおいて、蒸留手順全体の固定値として設定されていた。
しかし, 異なる試料からのロジットは多種多様であるため, 単一の温度で全て等度に軟化することは不可能であり, 以前の作業では各試料の知識が不十分に伝達される可能性がある。
本稿では,ハイパーパラメータ温度を再現し,単一値である場合に各試料から十分な知識を抽出できないことを明らかにする。
そこで本研究では,サンプルのロジット分布の特性に応じて各試料の温度をカスタマイズすることを目的として,正規化知識蒸留(NormKD)を提案する。
バニラkdと比較すると、normkdは計算コストやストレージコストがほとんどないが、cirar-100やimagenetでは画像分類がかなり優れている。
さらに、NormKDは、他のロジットベースのメソッドに簡単に適用でき、機能ベースのメソッドに近づいたり、より良くなったパフォーマンスを実現することができる。
関連論文リスト
- CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z) - Curriculum Temperature for Knowledge Distillation [30.94721463833605]
知識蒸留のためのカリキュラム温度(CTKD)と呼ばれるカリキュラムベースの手法を提案する。
CTKDは、動的で学習可能な温度で、学生の学習キャリアにおけるタスクの難易度を制御する。
簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2022-11-29T14:10:35Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - LTD: Low Temperature Distillation for Robust Adversarial Training [1.3300217947936062]
敵の訓練は、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使用されている。
ニューラルネットワークモデルの人気にもかかわらず、これらのモデルの自然な精度とロバストな精度の間には大きなギャップがある。
改良された知識蒸留フレームワークを用いてソフトラベルを生成する,低温蒸留(LTD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T16:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。