論文の概要: On the Demystification of Knowledge Distillation: A Residual Network
Perspective
- arxiv url: http://arxiv.org/abs/2006.16589v1
- Date: Tue, 30 Jun 2020 08:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:47:43.601600
- Title: On the Demystification of Knowledge Distillation: A Residual Network
Perspective
- Title(参考訳): 知識蒸留のデミスティフィケーション--残余ネットワークの視点から
- Authors: Nandan Kumar Jha, Rajat Saini, Sparsh Mittal
- Abstract要約: 知識蒸留(KD)はモデル圧縮と学習ラベル平滑化を行う技術として一般的に考えられている。
残余接続のないより深いネットワークのトレーニングにおける有効性について検討する。
ほとんどの場合、非レジデンシャルな学生ネットワークは、KDのない生データで訓練された残余バージョンよりも、等しく、あるいは良質であることがわかった。
- 参考スコア(独自算出の注目度): 2.7719338074999538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is generally considered as a technique for
performing model compression and learned-label smoothing. However, in this
paper, we study and investigate the KD approach from a new perspective: we
study its efficacy in training a deeper network without any residual
connections. We find that in most of the cases, non-residual student networks
perform equally or better than their residual versions trained on raw data
without KD (baseline network). Surprisingly, in some cases, they surpass the
accuracy of baseline networks even with the inferior teachers. After a certain
depth of non-residual student network, the accuracy drop, coming from the
removal of residual connections, is substantial, and training with KD boosts
the accuracy of the student up to a great extent; however, it does not fully
recover the accuracy drop. Furthermore, we observe that the conventional
teacher-student view of KD is incomplete and does not adequately explain our
findings. We propose a novel interpretation of KD with the Trainee-Mentor
hypothesis, which provides a holistic view of KD. We also present two
viewpoints, loss landscape, and feature reuse, to explain the interplay between
residual connections and KD. We substantiate our claims through extensive
experiments on residual networks.
- Abstract(参考訳): 知識蒸留(KD)はモデル圧縮と学習ラベル平滑化を行う技術として一般的に考えられている。
しかし,本稿では,KDアプローチを新たな視点から検討し,その有効性について検討する。
ほとんどの場合、非残留学生ネットワークはKD(ベースラインネットワーク)を使わずに、生データで訓練された残余バージョンよりも同等かそれ以上の性能を発揮する。
意外なことに、下級教師でさえ、ベースラインネットワークの精度を超越するケースもある。
非残留学生ネットワークの一定の深さの後、残差接続の除去による精度低下が著しくなり、KDによるトレーニングにより学生の精度が大幅に向上するが、精度低下を完全に回復することはない。
また,従来のkdの教師・学生観は不完全であり,その説明が不十分である。
我々は、KDの全体像を提供するTraiee-Mentor仮説を用いて、KDの新しい解釈を提案する。
また,残差接続とkd間の相互作用を説明するために,ロスランドスケープと機能再利用という2つの視点を提示した。
残余ネットワークに関する広範な実験を通じて、我々の主張を裏付ける。
関連論文リスト
- Knowledge From the Dark Side: Entropy-Reweighted Knowledge Distillation
for Balanced Knowledge Transfer [1.2606200500489302]
蒸留(KD)は、より大きな「教師」モデルからの知識を学生に伝達する。
ERKDは教師の予測においてエントロピーを用いてKD損失を標本的に再重み付けする。
私たちのコードはhttps://github.com/cpsu00/ER-KD.comで公開されています。
論文 参考訳(メタデータ) (2023-11-22T08:34:33Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。