論文の概要: Knowledge Distillation Performs Partial Variance Reduction
- arxiv url: http://arxiv.org/abs/2305.17581v2
- Date: Fri, 8 Dec 2023 22:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:32:22.396633
- Title: Knowledge Distillation Performs Partial Variance Reduction
- Title(参考訳): 知識蒸留による部分変量低減
- Authors: Mher Safaryan and Alexandra Peste and Dan Alistarh
- Abstract要約: 知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
- 参考スコア(独自算出の注目度): 93.6365393721122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a popular approach for enhancing the performance of
''student'' models, with lower representational capacity, by taking advantage
of more powerful ''teacher'' models. Despite its apparent simplicity and
widespread use, the underlying mechanics behind knowledge distillation (KD) are
still not fully understood. In this work, we shed new light on the inner
workings of this method, by examining it from an optimization perspective. We
show that, in the context of linear and deep linear models, KD can be
interpreted as a novel type of stochastic variance reduction mechanism. We
provide a detailed convergence analysis of the resulting dynamics, which hold
under standard assumptions for both strongly-convex and non-convex losses,
showing that KD acts as a form of partial variance reduction, which can reduce
the stochastic gradient noise, but may not eliminate it completely, depending
on the properties of the ''teacher'' model. Our analysis puts further emphasis
on the need for careful parametrization of KD, in particular w.r.t. the
weighting of the distillation loss, and is validated empirically on both linear
models and deep neural networks.
- Abstract(参考訳): 知識蒸留は、より強力な'教師'モデルを活用することで、表現能力の低い'学生'モデルの性能を高めるための一般的なアプローチである。
その明らかな単純さと広く使われているにもかかわらず、知識蒸留(KD)の基盤となるメカニズムは未だ完全には理解されていない。
本研究では,最適化の観点から検討し,本手法の内部動作に新たな光を当てる。
線形モデルと深い線形モデルの文脈において、kdは確率的分散還元機構の新しいタイプとして解釈できることを示す。
我々は、強凸損失と非凸損失の両方の標準的な仮定に基づいて、結果のダイナミクスの詳細な収束解析を行い、KDが部分分散還元の形で作用し、確率的勾配雑音を低減できるが、'教師'モデルの性質により完全には排除できないことを示した。
我々の分析は、KDの慎重なパラメトリゼーションの必要性、特に蒸留損失の重み付けに重点を置いており、線形モデルとディープニューラルネットワークの両方で実証的に検証されている。
関連論文リスト
- Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Modified Equations and Dynamics of Dropout Algorithm [4.811269936680572]
ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化技術である。
その基盤となるメカニズムと優れた能力を達成するための影響は、いまだに理解されていない。
論文 参考訳(メタデータ) (2023-05-25T08:42:25Z) - Reducing Capacity Gap in Knowledge Distillation with Review Mechanism
for Crowd Counting [16.65360204274379]
本稿では,KDモデルに基づく新たなレビュー機構について紹介する。
ReviewKDの有効性は、6つのベンチマークデータセットに対する一連の実験によって実証されている。
また,提案したレビュー機構をプラグイン・アンド・プレイモジュールとして使用することにより,ある種の大群カウントモデルの性能をさらに向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-11T09:11:42Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Solvable Model for Inheriting the Regularization through Knowledge
Distillation [2.944323057176686]
本稿では,知識蒸留の特性を解析的に評価できる統計物理フレームワークを提案する。
KDにより、より大規模な教師モデルの正規化特性を、より小さな学生に継承できることが示される。
また、検討されたKD設定で生じる二重降下現象を解析する。
論文 参考訳(メタデータ) (2020-12-01T01:01:34Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。