論文の概要: Curriculum Temperature for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.16231v1
- Date: Tue, 29 Nov 2022 14:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:39:35.901307
- Title: Curriculum Temperature for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのカリキュラム温度
- Authors: Zheng Li, Xiang Li, Lingfeng Yang, Borui Zhao, Renjie Song, Lei Luo,
Jun Li, Jian Yang
- Abstract要約: 知識蒸留のためのカリキュラム温度(CTKD)と呼ばれるカリキュラムベースの手法を提案する。
CTKDは、動的で学習可能な温度で、学生の学習キャリアにおけるタスクの難易度を制御する。
簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 30.94721463833605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing distillation methods ignore the flexible role of the
temperature in the loss function and fix it as a hyper-parameter that can be
decided by an inefficient grid search. In general, the temperature controls the
discrepancy between two distributions and can faithfully determine the
difficulty level of the distillation task. Keeping a constant temperature,
i.e., a fixed level of task difficulty, is usually sub-optimal for a growing
student during its progressive learning stages. In this paper, we propose a
simple curriculum-based technique, termed Curriculum Temperature for Knowledge
Distillation (CTKD), which controls the task difficulty level during the
student's learning career through a dynamic and learnable temperature.
Specifically, following an easy-to-hard curriculum, we gradually increase the
distillation loss w.r.t. the temperature, leading to increased distillation
difficulty in an adversarial manner. As an easy-to-use plug-in technique, CTKD
can be seamlessly integrated into existing knowledge distillation frameworks
and brings general improvements at a negligible additional computation cost.
Extensive experiments on CIFAR-100, ImageNet-2012, and MS-COCO demonstrate the
effectiveness of our method. Our code is available at
https://github.com/zhengli97/CTKD.
- Abstract(参考訳): 既存の蒸留法は、損失関数における温度の柔軟な役割を無視し、非効率なグリッド探索によって決定できる超パラメータとして固定する。
一般に、温度は2つの分布の差を制御し、蒸留作業の難易度を忠実に決定できる。
一定の温度を維持すること、すなわちタスクの難易度は、通常、成長する学生にとって、進歩的な学習段階において、準最適である。
本稿では,学生の学習キャリアにおける課題の難易度を動的かつ学習可能な温度で制御する,知識蒸留のためのカリキュラム温度(CTKD)と呼ばれる簡単なカリキュラムベースの手法を提案する。
具体的には, 難解なカリキュラムに従って, 徐々に蒸留損失が増加し, 反対方向に蒸留困難が増大する。
簡便なプラグイン技術として、CTKDは既存の知識蒸留フレームワークにシームレスに統合することができ、計算コストを無視できるほど高めることができる。
CIFAR-100, ImageNet-2012, MS-COCOの大規模実験により, 本手法の有効性が示された。
私たちのコードはhttps://github.com/zhengli97/ctkdで利用可能です。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Instance Temperature Knowledge Distillation [15.095465128404161]
既存の学習方法は、学生ネットワークが様々な学習困難に適応できるように、動的に温度調整を行う。
本稿では,温度調整を逐次意思決定タスクとして定式化し,強化学習に基づく手法を提案する。
我々のフレームワークは、様々なKDメソッドに簡単に挿入できるプラグイン・アンド・プレイ技術として機能する。
論文 参考訳(メタデータ) (2024-06-27T14:00:05Z) - Dynamic Temperature Knowledge Distillation [9.6046915661065]
知識蒸留(KD)領域におけるラベルソフトネスの調整における温度の役割
従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多い。
本研究では,教師モデルと学生モデルの両方に対して,動的かつ協調的な温度制御を同時に導入する動的温度知識蒸留(DTKD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T08:40:52Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。