論文の概要: Revisiting Label Smoothing and Knowledge Distillation Compatibility:
What was Missing?
- arxiv url: http://arxiv.org/abs/2206.14532v1
- Date: Wed, 29 Jun 2022 11:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:22:48.452332
- Title: Revisiting Label Smoothing and Knowledge Distillation Compatibility:
What was Missing?
- Title(参考訳): ラベルの平滑化と知識蒸留の互換性: 何が欠けているのか?
- Authors: Keshigeyan Chandrasegaran, Ngoc-Trung Tran, Yunqing Zhao, Ngai-Man
Cheung
- Abstract要約: 本研究は,ラベル平滑化 (LS) と知識蒸留 (KD) の適合性について検討する。
私たちの研究の主な貢献は、体系的な拡散の発見、分析、検証である。
- 参考スコア(独自算出の注目度): 38.073798391433634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the compatibility between label smoothing (LS) and
knowledge distillation (KD). Contemporary findings addressing this thesis
statement take dichotomous standpoints: Muller et al. (2019) and Shen et al.
(2021b). Critically, there is no effort to understand and resolve these
contradictory findings, leaving the primal question -- to smooth or not to
smooth a teacher network? -- unanswered. The main contributions of our work are
the discovery, analysis and validation of systematic diffusion as the missing
concept which is instrumental in understanding and resolving these
contradictory findings. This systematic diffusion essentially curtails the
benefits of distilling from an LS-trained teacher, thereby rendering KD at
increased temperatures ineffective. Our discovery is comprehensively supported
by large-scale experiments, analyses and case studies including image
classification, neural machine translation and compact student distillation
tasks spanning across multiple datasets and teacher-student architectures.
Based on our analysis, we suggest practitioners to use an LS-trained teacher
with a low-temperature transfer to achieve high performance students. Code and
models are available at
https://keshik6.github.io/revisiting-ls-kd-compatibility/
- Abstract(参考訳): 本研究はラベル平滑化(ls)と知識蒸留(kd)の相溶性を検討する。
この論文に関する現代の知見は、dichotomous perspectives: muller et al. (2019) と shen et al. (2021b) を取り上げている。
批判的に、これらの矛盾した発見を理解し解決する努力はなく、教師ネットワークをスムーズにするか、あるいはスムーズにしないかという基本的な疑問は解決されていない。
本研究の主な貢献は,これらの矛盾する発見の理解と解決に欠く概念として,体系的拡散の発見,解析,検証である。
この系統的な拡散は、基本的にLS訓練された教師からの蒸留の利点を減らし、KDを非効率に上昇させる。
今回の発見は,画像分類,ニューラルマシン翻訳,複数のデータセットにまたがるコンパクトな学生蒸留タスクを含む大規模実験,解析,ケーススタディによって包括的に支持されている。
そこで本研究では,LS学習者を対象に,高温トランスファーによる高成績学生の学習を支援することを提案する。
コードとモデルはhttps://keshik6.github.io/revisiting-ls-kd-compatibility/で利用可能である。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Pro-KD: Progressive Distillation by Following the Footsteps of the
Teacher [5.010360359434596]
プロKD手法は、教師のトレーニングフットプリントに従うことで、生徒のよりスムーズなトレーニングパスを定義する。
本手法は,キャパシティギャップ問題とチェックポイント探索問題の緩和に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-16T09:49:43Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Is Label Smoothing Truly Incompatible with Knowledge Distillation: An
Empirical Study [59.95267695402516]
本研究では,ラベルスムージングがナレッジ蒸留と相容れないことを実証的に明らかにする。
ラベルスムージングが意味的に類似したクラスと異なるクラスの分布にどのように影響するかに関する新しい接続を提供します。
我々は,その一面性と不完全性について,大規模解析,可視化,包括的な実験を通じて検討する。
論文 参考訳(メタデータ) (2021-04-01T17:59:12Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - ALP-KD: Attention-Based Layer Projection for Knowledge Distillation [30.896957367331137]
2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
論文 参考訳(メタデータ) (2020-12-27T22:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。