論文の概要: Supervision Complexity and its Role in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2301.12245v1
- Date: Sat, 28 Jan 2023 16:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:21:00.333201
- Title: Supervision Complexity and its Role in Knowledge Distillation
- Title(参考訳): 管理複雑性と知識蒸留における役割
- Authors: Hrayr Harutyunyan, Ankit Singh Rawat, Aditya Krishna Menon, Seungyeon
Kim, Sanjiv Kumar
- Abstract要約: 蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
- 参考スコア(独自算出の注目度): 65.07910515406209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the popularity and efficacy of knowledge distillation, there is
limited understanding of why it helps. In order to study the generalization
behavior of a distilled student, we propose a new theoretical framework that
leverages supervision complexity: a measure of alignment between
teacher-provided supervision and the student's neural tangent kernel. The
framework highlights a delicate interplay among the teacher's accuracy, the
student's margin with respect to the teacher predictions, and the complexity of
the teacher predictions. Specifically, it provides a rigorous justification for
the utility of various techniques that are prevalent in the context of
distillation, such as early stopping and temperature scaling. Our analysis
further suggests the use of online distillation, where a student receives
increasingly more complex supervision from teachers in different stages of
their training. We demonstrate efficacy of online distillation and validate the
theoretical findings on a range of image classification benchmarks and model
architectures.
- Abstract(参考訳): 知識蒸留の人気と有効性にもかかわらず、なぜそれが役立つのかの理解は限られている。
そこで,本研究では,教師が提案する教師監督と生徒の神経伝達核との整合性の尺度である,監督複雑性を利用した新たな理論的枠組みを提案する。
この枠組みは教師の正確さ、教師の予測に対する生徒のマージン、教師の予測の複雑さの間の繊細な相互作用を浮き彫りにしている。
具体的には、早期停止や温度スケーリングといった蒸留の文脈でよく見られる様々な技術の有用性を厳格に正当化する。
さらに本分析は, 学生が教育の異なる段階の教師から, より複雑な指導を受けるオンライン蒸留の利用を示唆している。
本稿では, オンライン蒸留の有効性を実証し, 画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
関連論文リスト
- Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。