論文の概要: Does Knowledge Distillation Really Work?
- arxiv url: http://arxiv.org/abs/2106.05945v1
- Date: Thu, 10 Jun 2021 17:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:33:21.808709
- Title: Does Knowledge Distillation Really Work?
- Title(参考訳): 知識蒸留は本当に機能するのか?
- Authors: Samuel Stanton, Pavel Izmailov, Polina Kirichenko, Alexander A. Alemi,
Andrew Gordon Wilson
- Abstract要約: 知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
- 参考スコア(独自算出の注目度): 106.38447017262183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a popular technique for training a small student
network to emulate a larger teacher model, such as an ensemble of networks. We
show that while knowledge distillation can improve student generalization, it
does not typically work as it is commonly understood: there often remains a
surprisingly large discrepancy between the predictive distributions of the
teacher and the student, even in cases when the student has the capacity to
perfectly match the teacher. We identify difficulties in optimization as a key
reason for why the student is unable to match the teacher. We also show how the
details of the dataset used for distillation play a role in how closely the
student matches the teacher -- and that more closely matching the teacher
paradoxically does not always lead to better student generalization.
- Abstract(参考訳): 知識蒸留は、ネットワークのアンサンブルのようなより大きな教師モデルをエミュレートするために、小さな学生ネットワークを訓練する一般的な技術である。
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。教師と生徒の予測分布に驚くほど大きな差がある場合が多く、たとえ学生が教師と完全に一致する能力を持つ場合であっても。
生徒が教師と一致できない理由として,最適化の難しさを見いだしている。
また,蒸留に使用するデータセットの詳細が,生徒の教師との密接な一致にどのような役割を果たしているかを示すとともに,教師とパラドックス的により密接な関係が,必ずしも学生の一般化に繋がるとは限らないことを示した。
関連論文リスト
- On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Multi-View Feature Representation for Dialogue Generation with
Bidirectional Distillation [22.14228918338769]
本稿では,一般知識の学習がコンセンサスに到達するアイデアとより一致した,新たなトレーニングフレームワークを提案する。
トレーニング効率を犠牲にすることなく、モデル一般化を効果的に改善します。
論文 参考訳(メタデータ) (2021-02-22T05:23:34Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。