論文の概要: Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation
- arxiv url: http://arxiv.org/abs/2010.07485v5
- Date: Tue, 12 Jan 2021 08:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:24:59.743485
- Title: Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation
- Title(参考訳): 球形知識拡散による教師学習ギャップの低減
- Authors: Jia Guo, Minghao Chen, Yao Hu, Chen Zhu, Xiaofei He, Deng Cai
- Abstract要約: 知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
- 参考スコア(独自算出の注目度): 67.75526580926149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation aims at obtaining a compact and effective model by
learning the mapping function from a much larger one. Due to the limited
capacity of the student, the student would underfit the teacher. Therefore,
student performance would unexpectedly drop when distilling from an oversized
teacher, termed the capacity gap problem. We investigate this problem by study
the gap of confidence between teacher and student. We find that the magnitude
of confidence is not necessary for knowledge distillation and could harm the
student performance if the student are forced to learn confidence. We propose
Spherical Knowledge Distillation to eliminate this gap explicitly, which eases
the underfitting problem. We find this novel knowledge representation can
improve compact models with much larger teachers and is robust to temperature.
We conducted experiments on both CIFAR100 and ImageNet, and achieve significant
improvement. Specifically, we train ResNet18 to 73.0 accuracy, which is a
substantial improvement over previous SOTA and is on par with resnet34 almost
twice the student size. The implementation has been shared at
https://github.com/forjiuzhou/Spherical-Knowledge-Distillation.
- Abstract(参考訳): 知識蒸留は、より大きいものからマッピング関数を学習することで、コンパクトで効果的なモデルを得ることを目的としている。
生徒の能力が限られているため、生徒は教師に不利になる。
そのため、大容量教師からの蒸留では、学生のパフォーマンスが予想外に低下し、キャパシティギャップ問題と呼ばれた。
本研究では,教師と学生の信頼のギャップについて検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
我々は,このギャップを明示的に解消するために球面知識蒸留法を提案する。
この新しい知識表現は、はるかに大きな教師でコンパクトモデルを改善することができ、温度に対して堅牢である。
CIFAR100とImageNetの両方で実験を行い,大幅な改良を行った。
具体的には、以前のSOTAよりも大幅に改善されたResNet18から73.0の精度をトレーニングし、生徒の約2倍のresnet34と同等である。
実装はhttps://github.com/forjiuzhou/Spherical-Knowledge-Distillationで共有されている。
関連論文リスト
- Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - PrUE: Distilling Knowledge from Sparse Teacher Networks [4.087221125836262]
本稿では,教師をシンプルにするために,予測不確実性向上(PrUE)と呼ばれるプルーニング手法を提案する。
CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。
提案手法により,より深いネットワークから知識を抽出し,学生をさらに改善することができる。
論文 参考訳(メタデータ) (2022-07-03T08:14:24Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Improved Knowledge Distillation via Adversarial Collaboration [2.373824287636486]
小学生モデルは、大きく訓練された教師モデルの知識を活用するために訓練される。
教師と生徒の能力格差のため、生徒の成績は教師のレベルに達することは困難である。
本稿では, 知識蒸留の性能を効果的に向上させる, ACKD (Adversarial Collaborative Knowledge Distillation) 法を提案する。
論文 参考訳(メタデータ) (2021-11-29T07:20:46Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。