論文の概要: Switchable Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2209.04996v1
- Date: Mon, 12 Sep 2022 03:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:19:41.945553
- Title: Switchable Online Knowledge Distillation
- Title(参考訳): 切り替え可能なオンライン知識蒸留
- Authors: Biao Qian, Yang Wang, Hongzhi Yin, Richang Hong and Meng Wang
- Abstract要約: オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
- 参考スコア(独自算出の注目度): 68.2673580932132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Knowledge Distillation (OKD) improves the involved models by
reciprocally exploiting the difference between teacher and student. Several
crucial bottlenecks over the gap between them -- e.g., Why and when does a
large gap harm the performance, especially for student? How to quantify the gap
between teacher and student? -- have received limited formal study. In this
paper, we propose Switchable Online Knowledge Distillation (SwitOKD), to answer
these questions. Instead of focusing on the accuracy gap at test phase by the
existing arts, the core idea of SwitOKD is to adaptively calibrate the gap at
training phase, namely distillation gap, via a switching strategy between two
modes -- expert mode (pause the teacher while keep the student learning) and
learning mode (restart the teacher). To possess an appropriate distillation
gap, we further devise an adaptive switching threshold, which provides a formal
criterion as to when to switch to learning mode or expert mode, and thus
improves the student's performance. Meanwhile, the teacher benefits from our
adaptive switching threshold and keeps basically on a par with other online
arts. We further extend SwitOKD to multiple networks with two basis topologies.
Finally, extensive experiments and analysis validate the merits of SwitOKD for
classification over the state-of-the-arts. Our code is available at
https://github.com/hfutqian/SwitOKD.
- Abstract(参考訳): オンライン知識蒸留(OKD)は,教師と生徒の違いを相互に活用することで,関連するモデルを改善する。
それらのギャップに関するいくつかの重要なボトルネック - 例えば、大きなギャップは、特に学生にとってパフォーマンスに悪影響を及ぼすのか? 教師と学生の間のギャップを定量化する方法? - は、限定的な正式な研究を受けている。
本稿では,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
switokdの中核となるアイデアは、既存の技術によるテストフェーズの精度ギャップに注目するのではなく、トレーニングフェーズにおけるギャップ、すなわち蒸留ギャップを、2つのモード – エキスパートモード(教師の学習を継続しながら教師を一時停止する)と学習モード(教師を再開する)の切り替え戦略を通じて適応的に調整することだ。
適切な蒸留ギャップを確保するために,学習モードやエキスパートモードに切り替える際の形式的基準を提供する適応切換閾値を考案し,学生のパフォーマンスを向上させる。
一方、教師は私たちの適応的なスイッチングしきい値から恩恵を受け、基本的に他のオンラインアートと同等に保ちます。
さらにswitokdを2つの基底トポロジを持つ複数のネットワークに拡張する。
最後に、幅広い実験と分析により、最先端技術の分類におけるSwitOKDの利点が検証された。
私たちのコードはhttps://github.com/hfutqian/switokdで利用可能です。
関連論文リスト
- Knowledge Distillation Layer that Lets the Student Decide [6.689381216751284]
2つの異なる能力でKDを改善する学習可能なKD層を提案する。
一 教師の知識の活用の仕方を学び、ニュアンス情報を破棄し、及び、伝達された知識をより深めていくこと。
論文 参考訳(メタデータ) (2023-09-06T09:05:03Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - ALP-KD: Attention-Based Layer Projection for Knowledge Distillation [30.896957367331137]
2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
論文 参考訳(メタデータ) (2020-12-27T22:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。