論文の概要: Knowledge Distillation as Semiparametric Inference
- arxiv url: http://arxiv.org/abs/2104.09732v1
- Date: Tue, 20 Apr 2021 03:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:51:00.898264
- Title: Knowledge Distillation as Semiparametric Inference
- Title(参考訳): 半パラメトリック推論としての知識蒸留
- Authors: Tri Dao, Govinda M Kamath, Vasilis Syrgkanis, Lester Mackey
- Abstract要約: モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
- 参考スコア(独自算出の注目度): 44.572422527672416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular approach to model compression is to train an inexpensive student
model to mimic the class probabilities of a highly accurate but cumbersome
teacher model. Surprisingly, this two-step knowledge distillation process often
leads to higher accuracy than training the student directly on labeled data. To
explain and enhance this phenomenon, we cast knowledge distillation as a
semiparametric inference problem with the optimal student model as the target,
the unknown Bayes class probabilities as nuisance, and the teacher
probabilities as a plug-in nuisance estimate. By adapting modern semiparametric
tools, we derive new guarantees for the prediction error of standard
distillation and develop two enhancements -- cross-fitting and loss correction
-- to mitigate the impact of teacher overfitting and underfitting on student
performance. We validate our findings empirically on both tabular and image
data and observe consistent improvements from our knowledge distillation
enhancements.
- Abstract(参考訳): モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
驚くべきことに、この2段階の知識蒸留プロセスは、しばしば学生がラベル付きデータを直接訓練するよりも精度が高い。
この現象を説明するために, 最適学習モデルを用いた半パラメトリック推定問題として知識蒸留を, 未知ベイズ級確率を迷惑として, 教師確率をプラグイン迷惑推定として用いた。
近代的な半パラメトリックツールを適用することにより,標準蒸留の予測誤差に対する新たな保証を導き,教師の過度な適合と過度な適合が学生のパフォーマンスに与える影響を軽減するために,クロスフィットと損失補正の2つの拡張を開発する。
本研究の成果は表と画像データの両方で実証的に検証し,知識蒸留の強化による一貫した改善を観察した。
関連論文リスト
- Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge [17.382306203152943]
Dynamic Guidance Adversarial Distillation (DGAD) フレームワークは、差分サンプルの重要性の課題に取り組む。
DGADは蒸留焦点を動的に調整するためにミスクラス化認識分割(MAP)を使用している。
Error-corrective Label Swapping (ELS) は、クリーン入力と逆入力の両方で教師の誤分類を補正する。
論文 参考訳(メタデータ) (2024-09-03T05:52:37Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。
後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。
実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文 参考訳(メタデータ) (2024-04-03T02:41:16Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。