論文の概要: Solvable Model for Inheriting the Regularization through Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2012.00194v2
- Date: Wed, 2 Dec 2020 16:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:28:30.703178
- Title: Solvable Model for Inheriting the Regularization through Knowledge
Distillation
- Title(参考訳): 知識蒸留による正規化を継承する可解モデル
- Authors: Luca Saglietti and Lenka Zdeborov\'a
- Abstract要約: 本稿では,知識蒸留の特性を解析的に評価できる統計物理フレームワークを提案する。
KDにより、より大規模な教師モデルの正規化特性を、より小さな学生に継承できることが示される。
また、検討されたKD設定で生じる二重降下現象を解析する。
- 参考スコア(独自算出の注目度): 2.944323057176686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years the empirical success of transfer learning with neural
networks has stimulated an increasing interest in obtaining a theoretical
understanding of its core properties. Knowledge distillation where a smaller
neural network is trained using the outputs of a larger neural network is a
particularly interesting case of transfer learning. In the present work, we
introduce a statistical physics framework that allows an analytic
characterization of the properties of knowledge distillation (KD) in shallow
neural networks. Focusing the analysis on a solvable model that exhibits a
non-trivial generalization gap, we investigate the effectiveness of KD. We are
able to show that, through KD, the regularization properties of the larger
teacher model can be inherited by the smaller student and that the yielded
generalization performance is closely linked to and limited by the optimality
of the teacher. Finally, we analyze the double descent phenomenology that can
arise in the considered KD setting.
- Abstract(参考訳): 近年,ニューラルネットワークによる伝達学習の実証的成功は,そのコア特性の理論的理解の獲得への関心を高めている。
より大きなニューラルネットワークの出力を使って、より小さなニューラルネットワークを訓練する知識蒸留は、転送学習の特に興味深いケースである。
本研究では,浅層ニューラルネットワークにおける知識蒸留(KD)の特性を解析的に評価できる統計物理フレームワークを提案する。
非自明な一般化ギャップを示す可解モデルの解析に着目し、KDの有効性を検討する。
kdにより,より大きな教師モデルの正規化特性は小学生に受け継がれ,得られた一般化性能は教師の最適性によって密接に関連し,制限されていることを示すことができる。
最後に、考慮されたKD設定で起こりうる二重降下現象を解析する。
関連論文リスト
- Towards a Statistical Understanding of Neural Networks: Beyond the Neural Tangent Kernel Theories [13.949362600389088]
ニューラルネットワークの主な利点は、その特徴学習特性にある。
本稿では,特徴学習のための新しいパラダイムを提案し,その結果の一般化可能性について考察する。
論文 参考訳(メタデータ) (2024-12-25T03:03:58Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。
GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。
提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z) - Deep Knowledge Tracing with Learning Curves [0.9088303226909278]
本稿では,進化的知識追跡(CAKT)モデルを提案する。
このモデルは、3次元畳み込みニューラルネットワークを用いて、次の質問で同じ知識の概念を適用した学生の最近の経験を明示的に学習する。
CAKTは,既存のモデルと比較して,生徒の反応を予測する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-26T15:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。