論文の概要: SoTeacher: A Student-oriented Teacher Network Training Framework for
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2206.06661v1
- Date: Tue, 14 Jun 2022 07:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:21:02.430773
- Title: SoTeacher: A Student-oriented Teacher Network Training Framework for
Knowledge Distillation
- Title(参考訳): SoTeacher:知識蒸留のための教師ネットワーク学習フレームワーク
- Authors: Chengyu Dong, Liyuan Liu, Jingbo Shang
- Abstract要約: 本稿では,学生指向のネットワーク学習フレームワークSoTeacherを提案する。
SoTeacherは、ほぼすべての教師と学生のアーキテクチャペアに適用できる。
教師の訓練で生徒の事前の知識を必要とせず、ほとんどオーバーヘッドを生じさせない。
- 参考スコア(独自算出の注目度): 34.840183837827944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to train an ideal teacher for knowledge distillation is still an open
problem. It has been widely observed that a teacher minimizing the empirical
risk not necessarily yields the best performing student, suggesting a
fundamental discrepancy between the common practice in teacher network training
and the distillation objective. To fill this gap, we propose a novel
student-oriented teacher network training framework SoTeacher, inspired by
recent findings that student performance hinges on teacher's capability to
approximate the true label distribution of training samples. We theoretically
established that (1) the empirical risk minimizer with proper scoring rules as
loss function can provably approximate the true label distribution of training
data if the hypothesis function is locally Lipschitz continuous around training
samples; and (2) when data augmentation is employed for training, an additional
constraint is required that the minimizer has to produce consistent predictions
across augmented views of the same training input. In light of our theory,
SoTeacher renovates the empirical risk minimization by incorporating Lipschitz
regularization and consistency regularization. It is worth mentioning that
SoTeacher is applicable to almost all teacher-student architecture pairs,
requires no prior knowledge of the student upon teacher's training, and induces
almost no computation overhead. Experiments on two benchmark datasets confirm
that SoTeacher can improve student performance significantly and consistently
across various knowledge distillation algorithms and teacher-student pairs.
- Abstract(参考訳): 理想的な教師の知識蒸留の訓練は、まだ未解決の問題である。
経験的リスクを最小限に抑える教師が必ずしも最高の成績を上げるとは限らないことが広く知られており、教師ネットワークトレーニングにおける一般的な実践と蒸留目標との根本的な相違が示唆されている。
そこで,このギャップを埋めるために,教師の指導能力が学習サンプルのラベル分布を近似する教師の能力に左右されるという最近の知見に触発された,新しい教師ネットワーク学習フレームワークsoteacherを提案する。
我々は,(1) 仮説関数がトレーニングサンプルの周囲で局所的にリプシッツ連続である場合,損失関数として適切なスコアリングルールを持つ経験的リスク最小化器がトレーニングデータの真のラベル分布を確実に近似できること,(2) トレーニングにデータ拡張を施す場合には,最小化器が同一のトレーニング入力の強化ビューに対して一貫した予測を生成する必要があることを理論的に証明した。
我々の理論に照らして、SoTeacherはリプシッツ正則化と整合正則化を取り入れて経験的リスク最小化を革新する。
soteacherは、ほとんどすべての教師と学生のアーキテクチャペアに適用でき、教師のトレーニング時に生徒の事前知識を必要とせず、計算オーバーヘッドをほとんど発生しない。
2つのベンチマークデータセットの実験により、SoTeacherは様々な知識蒸留アルゴリズムと教師と学生のペア間で、学生のパフォーマンスを著しく改善できることを確認した。
関連論文リスト
- Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Student Network Learning via Evolutionary Knowledge Distillation [22.030934154498205]
教師知識の伝達効率を改善するための進化的知識蒸留手法を提案する。
進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。
このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。
論文 参考訳(メタデータ) (2021-03-23T02:07:15Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。