論文の概要: Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning
- arxiv url: http://arxiv.org/abs/2012.09816v1
- Date: Thu, 17 Dec 2020 18:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:34:34.484266
- Title: Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning
- Title(参考訳): 深層学習におけるアンサンブル,知識蒸留,自己蒸留の理解に向けて
- Authors: Zeyuan Allen-Zhu and Yuanzhi Li
- Abstract要約: 本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
- 参考スコア(独自算出の注目度): 93.18238573921629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formally study how Ensemble of deep learning models can improve test
accuracy, and how the superior performance of ensemble can be distilled into a
single model using Knowledge Distillation. We consider the challenging case
where the ensemble is simply an average of the outputs of a few independently
trained neural networks with the SAME architecture, trained using the SAME
algorithm on the SAME data set, and they only differ by the random seeds used
in the initialization. We empirically show that ensemble/knowledge distillation
in deep learning works very differently from traditional learning theory,
especially differently from ensemble of random feature mappings or the
neural-tangent-kernel feature mappings, and is potentially out of the scope of
existing theorems. Thus, to properly understand ensemble and knowledge
distillation in deep learning, we develop a theory showing that when data has a
structure we refer to as "multi-view", then ensemble of independently trained
neural networks can provably improve test accuracy, and such superior test
accuracy can also be provably distilled into a single model by training a
single model to match the output of the ensemble instead of the true label. Our
result sheds light on how ensemble works in deep learning in a way that is
completely different from traditional theorems, and how the "dark knowledge" is
hidden in the outputs of the ensemble -- that can be used in knowledge
distillation -- comparing to the true data labels. In the end, we prove that
self-distillation can also be viewed as implicitly combining ensemble and
knowledge distillation to improve test accuracy.
- Abstract(参考訳): 深層学習モデルのアンサンブルがテスト精度を向上させる方法と、知識蒸留を用いた単一モデルにアンサンブルの優れた性能を蒸留する方法を正式に研究する。
我々は,このアンサンブルが,一意に訓練された数個のニューラルネットワークのパットアーキテクチャによる出力の平均であり,パットデータセット上で,パットアルゴリズムを用いてトレーニングされている場合,初期化に使用するランダムなシードによってのみ異なる場合を考える。
深層学習におけるアンサンブル・ナレッジ蒸留は従来の学習理論とは全く異なる働きをしており、特にランダム特徴マッピングやニューラルネットワーク-タンジェント-カーネル特徴マッピングとは異なっている。
そこで, 深層学習におけるアンサンブルと知識蒸留を適切に理解するために, データが「マルチビュー」と呼ばれる構造を持つ場合, 独立に訓練されたニューラルネットワークのアンサンブルがテスト精度を向上し, 真のラベルの代わりにアンサンブルの出力に適合するように単一のモデルを訓練することにより, 優れたテスト精度を1つのモデルに証明可能とする理論を開発した。
その結果、従来の定理とは全く異なる方法で、アンサンブルがディープラーニングでどのように機能するか、そして、真のデータラベルと比較して、知識蒸留に使用できるアンサンブルのアウトプットに「ダーク知識」がどのように隠されているかに光を当てている。
最後に, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
関連論文リスト
- FiLM-Ensemble: Probabilistic Deep Learning via Feature-wise Linear
Modulation [69.34011200590817]
本稿では,特徴量線形変調の概念に基づく暗黙のアンサンブル手法であるFiLM-Ensembleを紹介する。
単一ディープネットワークのネットワークアクティベーションをFiLMで変調することにより、高多様性のモデルアンサンブルを得る。
我々は、FiLM-Ensembleが他の暗黙のアンサンブル法よりも優れており、ネットワークの明示的なアンサンブルの上限に非常に近いことを示す。
論文 参考訳(メタデータ) (2022-05-31T18:33:15Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [75.59791764353459]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Learn From the Past: Experience Ensemble Knowledge Distillation [34.561007802532224]
本稿では,教師の知識伝達経験を統合した新しい知識蒸留法を提案する。
教師モデルの学習過程から適度な数の中間モデルを均一に保存し,これらの中間モデルの知識をアンサンブル手法で統合する。
意外な結論は、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らないことである。
論文 参考訳(メタデータ) (2022-02-25T04:05:09Z) - Towards Model Agnostic Federated Learning Using Knowledge Distillation [9.947968358822951]
本研究では,モデル非依存通信プロトコルの理論的研究を開始する。
我々は,2つのエージェントが異なるカーネルを用いてカーネルレグレッションを実行しようとする設定に焦点を当てる。
我々の研究は驚くべき結果をもたらします -- 交互知識蒸留(AKD)を用いる最も自然なアルゴリズムは、過度に強い正則化を課します。
論文 参考訳(メタデータ) (2021-10-28T15:27:51Z) - Distilling Holistic Knowledge with Graph Neural Networks [37.86539695906857]
知識蒸留(KD)は、より大規模な教師ネットワークからより小さな学習可能な学生ネットワークへ知識を伝達することを目的としている。
既存のKD法は主に、個々の知識と関係知識の2つの種類の知識を考察してきた。
本稿では, インスタンス間に構築された属性グラフに基づいて, 新たな包括的知識を蒸留する。
論文 参考訳(メタデータ) (2021-08-12T02:47:59Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。