論文の概要: Knowledge Distillation in Wide Neural Networks: Risk Bound, Data
Efficiency and Imperfect Teacher
- arxiv url: http://arxiv.org/abs/2010.10090v1
- Date: Tue, 20 Oct 2020 07:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:45:28.484653
- Title: Knowledge Distillation in Wide Neural Networks: Risk Bound, Data
Efficiency and Imperfect Teacher
- Title(参考訳): 広域ニューラルネットワークにおける知識蒸留:リスクバウンド、データ効率、不完全教師
- Authors: Guangda Ji, Zhanxing Zhu
- Abstract要約: 知識蒸留は、教師ネットワークからのソフトアウトプットのガイドで学生ネットワークを訓練する戦略である。
ニューラル・タンジェント・カーネルの最近の発見により、ネットワークのランダムな特徴の線形モデルを用いて、広いニューラルネットワークを近似することができる。
- 参考スコア(独自算出の注目度): 40.74624021934218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a strategy of training a student network with guide
of the soft output from a teacher network. It has been a successful method of
model compression and knowledge transfer. However, currently knowledge
distillation lacks a convincing theoretical understanding. On the other hand,
recent finding on neural tangent kernel enables us to approximate a wide neural
network with a linear model of the network's random features. In this paper, we
theoretically analyze the knowledge distillation of a wide neural network.
First we provide a transfer risk bound for the linearized model of the network.
Then we propose a metric of the task's training difficulty, called data
inefficiency. Based on this metric, we show that for a perfect teacher, a high
ratio of teacher's soft labels can be beneficial. Finally, for the case of
imperfect teacher, we find that hard labels can correct teacher's wrong
prediction, which explains the practice of mixing hard and soft labels.
- Abstract(参考訳): 知識蒸留は、教師ネットワークからのソフトアウトプットのガイドで学生ネットワークを訓練する戦略である。
モデル圧縮と知識伝達の手法として成功している。
しかし、現在では知識蒸留は理論的な理解を欠いている。
一方,近年の神経接核の発見により,ネットワークのランダムな特徴の線形モデルを用いて,広いニューラルネットワークを近似することが可能となった。
本稿では,広いニューラルネットワークの知識蒸留を理論的に解析する。
まず,ネットワークの線形化モデルにバウンドした転送リスクを提供する。
次に,データ非効率性(data inefficiency)という課題の訓練難易度指標を提案する。
この測定値から,完璧な教師にとって,教師のソフトラベルの比率が高い方が有益であることを示す。
最後に,不完全教師の場合,ハードラベルは教師の誤った予測を正すことができ,ハードラベルとソフトラベルを混合するプラクティスを説明する。
関連論文リスト
- Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - PrUE: Distilling Knowledge from Sparse Teacher Networks [4.087221125836262]
本稿では,教師をシンプルにするために,予測不確実性向上(PrUE)と呼ばれるプルーニング手法を提案する。
CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。
提案手法により,より深いネットワークから知識を抽出し,学生をさらに改善することができる。
論文 参考訳(メタデータ) (2022-07-03T08:14:24Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Online Adversarial Distillation for Graph Neural Networks [40.746598033413086]
知識蒸留は畳み込みニューラルネットワークにおけるモデル一般化能力を改善する技術である。
本稿では,一群のグラフニューラルネットワークを学習するためのオンライン逆蒸留手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T02:30:11Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。