論文の概要: Distilling Calibrated Student from an Uncalibrated Teacher
- arxiv url: http://arxiv.org/abs/2302.11472v1
- Date: Wed, 22 Feb 2023 16:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:36:02.264745
- Title: Distilling Calibrated Student from an Uncalibrated Teacher
- Title(参考訳): 校正されていない教師からの校正生の蒸留
- Authors: Ishan Mishra, Sethu Vamsi Krishna, Deepak Mishra
- Abstract要約: 校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
- 参考スコア(独自算出の注目度): 8.101116303448586
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation is a common technique for improving the performance of
a shallow student network by transferring information from a teacher network,
which in general, is comparatively large and deep. These teacher networks are
pre-trained and often uncalibrated, as no calibration technique is applied to
the teacher model while training. Calibration of a network measures the
probability of correctness for any of its predictions, which is critical in
high-risk domains. In this paper, we study how to obtain a calibrated student
from an uncalibrated teacher. Our approach relies on the fusion of the
data-augmentation techniques, including but not limited to cutout, mixup, and
CutMix, with knowledge distillation. We extend our approach beyond traditional
knowledge distillation and find it suitable for Relational Knowledge
Distillation and Contrastive Representation Distillation as well. The novelty
of the work is that it provides a framework to distill a calibrated student
from an uncalibrated teacher model without compromising the accuracy of the
distilled student. We perform extensive experiments to validate our approach on
various datasets, including CIFAR-10, CIFAR-100, CINIC-10 and TinyImageNet, and
obtained calibrated student models. We also observe robust performance of our
approach while evaluating it on corrupted CIFAR-100C data.
- Abstract(参考訳): 知識蒸留は、教師ネットワークから情報を伝達することで、比較的大きくて深い、浅い学生ネットワークの性能を向上させるための一般的な手法である。
これらの教師ネットワークは、トレーニング中に教師モデルに校正技術を適用することなく、事前訓練され、しばしば校正されない。
ネットワークのキャリブレーションは、高リスク領域において重要な全ての予測の正しさを測定する。
本稿では,校正されていない教師から校正を受けた生徒の獲得方法について検討する。
我々のアプローチは、知識蒸留を伴うカットアウト、ミックスアップ、カットミクスに限らず、データ拡張技術の融合に依存している。
我々は,従来の知識蒸留を超えてアプローチを拡張し,関係知識蒸留やコントラスト表現蒸留にも適していると考えている。
本研究の新規性は、留学生の精度を損なうことなく、校正された生徒を校正されていない教師モデルから蒸留する枠組みを提供することである。
CIFAR-10, CIFAR-100, CINIC-10, TinyImageNet など, 様々なデータセットに対するアプローチを検証するための広範な実験を行い, 校正された学生モデルを得た。
また, 破損したCIFAR-100Cデータを用いて, 提案手法の頑健な性能評価を行った。
関連論文リスト
- Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Enhancing Data-Free Adversarial Distillation with Activation
Regularization and Virtual Interpolation [19.778192371420793]
データフリーの逆蒸留フレームワークは生成ネットワークを展開し、教師モデルの知識を生徒モデルに転送する。
データ生成効率を向上させるために、アクティベーションレギュラライザと仮想敵対法を追加します。
CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。
論文 参考訳(メタデータ) (2021-02-23T11:37:40Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。