論文の概要: On the Unreasonable Effectiveness of Knowledge Distillation: Analysis in
the Kernel Regime
- arxiv url: http://arxiv.org/abs/2003.13438v2
- Date: Fri, 25 Sep 2020 07:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:39:48.652935
- Title: On the Unreasonable Effectiveness of Knowledge Distillation: Analysis in
the Kernel Regime
- Title(参考訳): 知識蒸留の合理的な有効性について-カーネルレジームの分析
- Authors: Arman Rahbar, Ashkan Panahi, Chiranjib Bhattacharyya, Devdatt
Dubhashi, Morteza Haghir Chehreghani
- Abstract要約: 極めて広い2層非線形ネットワークの設定における知識蒸留(KD)の理論的解析を行った。
学生ネットワークの学習内容と,学生ネットワークの収束率を実証する。
また,このモデルで抽選券仮説(Frankle & Carbin)を検証した。
- 参考スコア(独自算出の注目度): 18.788429230344214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD), i.e. one classifier being trained on the outputs
of another classifier, is an empirically very successful technique for
knowledge transfer between classifiers. It has even been observed that
classifiers learn much faster and more reliably if trained with the outputs of
another classifier as soft labels, instead of from ground truth data. However,
there has been little or no theoretical analysis of this phenomenon. We provide
the first theoretical analysis of KD in the setting of extremely wide two layer
non-linear networks in model and regime in (Arora et al., 2019; Du & Hu, 2019;
Cao & Gu, 2019). We prove results on what the student network learns and on the
rate of convergence for the student network. Intriguingly, we also confirm the
lottery ticket hypothesis (Frankle & Carbin, 2019) in this model. To prove our
results, we extend the repertoire of techniques from linear systems dynamics.
We give corresponding experimental analysis that validates the theoretical
results and yields additional insights.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation, kd)とは、ある分類器が他の分類器の出力に基づいて訓練される技術である。
分類器は他の分類器の出力をソフトラベルとしてトレーニングした場合、基底的真理データではなく、より高速かつ確実に学習することが観察されている。
しかし、この現象の理論的分析はほとんど、あるいは全く行われていない。
我々は、モデルとレジームにおける超広い2層非線形ネットワークの設定において、kdの最初の理論的解析を提供する(arora et al., 2019; du & hu, 2019; cao & gu, 2019)。
本稿では,学生ネットワークが学習する内容と,学生ネットワークの収束率について検証する。
興味深いことに、このモデルで宝くじの仮説(Frankle & Carbin, 2019)を確認します。
結果を証明するために,線形系のダイナミクスから手法のレパートリーを拡張する。
理論的結果を検証し,さらなる知見を得るための実験分析を行う。
関連論文リスト
- Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Towards Understanding Knowledge Distillation [37.71779364624616]
知識蒸留は、分類器間の知識伝達において、経験的に非常に成功した技術である。
この現象の十分な理論的説明はない。
本稿では, 線形および深部線形分類器の特別事例を考察することにより, 蒸留の作業機構に関する最初の知見を提供する。
論文 参考訳(メタデータ) (2021-05-27T12:45:08Z) - Towards Understanding Learning in Neural Networks with Linear Teachers [31.849269592822296]
我々は,この学習問題をLaky ReLUアクティベートした2層ネットワークに対して,SGDがグローバルに最適化していることを証明する。
ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。
論文 参考訳(メタデータ) (2021-01-07T13:21:24Z) - Solvable Model for Inheriting the Regularization through Knowledge
Distillation [2.944323057176686]
本稿では,知識蒸留の特性を解析的に評価できる統計物理フレームワークを提案する。
KDにより、より大規模な教師モデルの正規化特性を、より小さな学生に継承できることが示される。
また、検討されたKD設定で生じる二重降下現象を解析する。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Deep Knowledge Tracing with Learning Curves [0.9088303226909278]
本稿では,進化的知識追跡(CAKT)モデルを提案する。
このモデルは、3次元畳み込みニューラルネットワークを用いて、次の質問で同じ知識の概念を適用した学生の最近の経験を明示的に学習する。
CAKTは,既存のモデルと比較して,生徒の反応を予測する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-26T15:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。