論文の概要: Faithful Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2306.04431v3
- Date: Fri, 11 Aug 2023 13:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 16:55:22.455780
- Title: Faithful Knowledge Distillation
- Title(参考訳): 忠実な知識蒸留
- Authors: Tom A. Lamb, Rudy Brunel, Krishnamurthy DJ Dvijotham, M. Pawan Kumar,
Philip H. S. Torr, Francisco Eiras
- Abstract要約: i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
- 参考スコア(独自算出の注目度): 75.59907631395849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) has received much attention due to its success in
compressing networks to allow for their deployment in resource-constrained
systems. While the problem of adversarial robustness has been studied before in
the KD setting, previous works overlook what we term the relative calibration
of the student network with respect to its teacher in terms of soft
confidences. In particular, we focus on two crucial questions with regard to a
teacher-student pair: (i) do the teacher and student disagree at points close
to correctly classified dataset examples, and (ii) is the distilled student as
confident as the teacher around dataset examples? These are critical questions
when considering the deployment of a smaller student network trained from a
robust teacher within a safety-critical setting. To address these questions, we
introduce a faithful imitation framework to discuss the relative calibration of
confidences and provide empirical and certified methods to evaluate the
relative calibration of a student w.r.t. its teacher. Further, to verifiably
align the relative calibration incentives of the student to those of its
teacher, we introduce faithful distillation. Our experiments on the MNIST,
Fashion-MNIST and CIFAR-10 datasets demonstrate the need for such an analysis
and the advantages of the increased verifiability of faithful distillation over
alternative adversarial distillation methods.
- Abstract(参考訳): 知識蒸留(KD)は、資源の制約されたシステムへの展開を可能にするために、ネットワークの圧縮に成功したため、多くの注目を集めている。
対角的堅牢性の問題は、KD設定において以前にも研究されてきたが、従来の研究は、教師に対する学生ネットワークの相対的キャリブレーションをソフトな自信の観点から見落としている。
特に,教師と学生のペアに関する2つの重要な質問に焦点をあてる。
i)教師と学生は、正しく分類されたデータセットの例に近い点で意見が一致しないか。
(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか?
これらは、安全クリティカルな環境でロバストな教師から訓練された小さな学生ネットワークの配置を考えるとき、重要な問題である。
そこで本研究では,自信の相対的校正を議論し,教師の相対校正を評価するための経験的・認定的手法を提供するための忠実な模倣フレームワークを提案する。
さらに, 生徒の相対校正インセンティブと教師の校正インセンティブを確実に一致させるために, 忠実蒸留を導入する。
MNIST, Fashion-MNIST, CIFAR-10データセットを用いた実験により, 代替対角蒸留法に対する忠実蒸留の信頼性向上のメリットと分析の必要性が示された。
関連論文リスト
- Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Evaluation-oriented Knowledge Distillation for Deep Face Recognition [19.01023156168511]
本研究では,教師モデルと学生モデルのパフォーマンスギャップを直接軽減するために,深層顔認識のための新しい評価指向KD法を提案する。
EKDは顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として用いている。
論文 参考訳(メタデータ) (2022-06-06T02:49:40Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。