論文の概要: LoCa: Logit Calibration for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2409.04778v1
- Date: Sat, 7 Sep 2024 09:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:41:31.920567
- Title: LoCa: Logit Calibration for Knowledge Distillation
- Title(参考訳): LoCa: 知識蒸留のためのログ校正
- Authors: Runming Yang, Taiqiang Wu, Yujiu Yang,
- Abstract要約: 教師のロジットに基づく予測がラベルに従わなければ,学生は誤解される。
そこで本研究では,教師モデルからロジットを校正するシンプルなロジット(LoCa)手法を提案する。
- 参考スコア(独自算出の注目度): 29.047273634615994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Distillation (KD), aiming to train a better student model by mimicking the teacher model, plays an important role in model compression. One typical way is to align the output logits. However, we find a common issue named mis-instruction, that the student would be misled when the predictions based on teacher logits do not follow the labels. Meanwhile, there is other useful dark knowledge in the logits such as the class discriminability, which is vital for distillation. In this paper, we propose a simple yet effective Logit Calibration (LoCa) method, which calibrates the logits from the teacher model based on the ground-truth labels. The key insight is to correct the prediction (to address the mis-instruction issue) and maintain useful dark knowledge simultaneously. Our proposed LoCa does not require any additional parameters. Empirical results on image classification and text generation tasks demonstrate that LoCa can effectively improve the performance of baselines.
- Abstract(参考訳): 教師モデルに模倣してより良い学生モデルを訓練することを目的とした知識蒸留(KD)は,モデル圧縮において重要な役割を担っている。
典型的な方法は出力のロジットを調整することである。
しかし,教師のロジットに基づく予測がラベルに従わなければ,学生は誤解される。
一方、蒸留に欠かせない分類可能性など、ロジットに有用な暗黒の知識がある。
本稿では,教師モデルからロジットを校正する簡易かつ効果的なロジット校正法を提案する。
重要な洞察は、予測(誤った指示の問題に対処する)を修正し、有用な暗黒知識を同時に維持することである。
提案したLoCaは追加のパラメータを必要としない。
画像分類とテキスト生成タスクに関する実証結果は,LoCaがベースラインの性能を効果的に向上できることを示す。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and
Reliable Language Model [18.459316417989353]
知識蒸留では、教師の知識と訓練データ分布から引き出された観察の両方から、学生モデルを指導する。
我々は教師モデルが知識の源であり、学生の誤校正を検出する指標であると考えている。
このシンプルで斬新な視点は、教師モデルからの学習とトレーニングデータとを切り替えるハードゲートの知識蒸留スキームに繋がる。
論文 参考訳(メタデータ) (2022-10-22T11:57:10Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。