論文の概要: Exploring the Connection between Knowledge Distillation and Logits
Matching
- arxiv url: http://arxiv.org/abs/2109.06458v1
- Date: Tue, 14 Sep 2021 05:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:50:55.370456
- Title: Exploring the Connection between Knowledge Distillation and Logits
Matching
- Title(参考訳): 知識蒸留と論理マッチングの関連性を探る
- Authors: Defang Chen, Can Wang, Yan Feng, Chun Chen
- Abstract要約: 知識蒸留はモデル圧縮のための一般化ロジットマッチング手法である。
本稿では、textitinfinity temperature$のみを用いて、知識蒸留の効果が余分な正規化と一致するロジットに等しいことを証明した。
- 参考スコア(独自算出の注目度): 20.185140057136614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a generalized logits matching technique for model
compression. Their equivalence is previously established on the condition of
$\textit{infinity temperature}$ and $\textit{zero-mean normalization}$. In this
paper, we prove that with only $\textit{infinity temperature}$, the effect of
knowledge distillation equals to logits matching with an extra regularization.
Furthermore, we reveal that an additional weaker condition --
$\textit{equal-mean initialization}$ rather than the original
$\textit{zero-mean normalization}$ already suffices to set up the equivalence.
The key to our proof is we realize that in modern neural networks with the
cross-entropy loss and softmax activation, the mean of back-propagated gradient
on logits always keeps zero.
- Abstract(参考訳): 知識蒸留はモデル圧縮のための一般化ロジットマッチング手法である。
その等価性は以前、$\textit{infinity temperature}$と$\textit{zero-mean normalization}$という条件で確立されていた。
本稿では,$\textit{infinity temperature}$ において,知識蒸留の効果は余分な正規化と一致するロジットに等しいことを証明する。
さらに、追加の弱条件 -$\textit{equal-mean initialization}$ が、元の$\textit{zero-mean normalization}$ よりも既に同値の設定に十分であることが分かる。
我々の証明の鍵は、クロスエントロピー損失とソフトマックスアクティベーションを持つ現代のニューラルネットワークでは、ロジットのバックプロパゲーション勾配の平均が常にゼロであることに気付くことです。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its
Momentum Extension Measured by $\ell_1$ Norm: Better Dependence on the
Dimension [70.4788692766068]
本稿では古典的RMSPropPropとその運動量拡張について考察する。
これにより$frac1Tsum_k=1Teleft[|nabla f(xk)|_1right]leq O(fracsqrtdT1/4)$が$ell_$ノルムで測定される。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and
Exp-Concave Games with Gradient Feedback [84.61895643083226]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Generalized Regret Analysis of Thompson Sampling using Fractional
Posteriors [12.43000662545423]
トンプソンサンプリング(Thompson sample, TS)は、マルチアームバンディット問題を解くアルゴリズムの1つである。
TSの変種である$alpha$-TSを考え、標準的な後続分布の代わりに$alpha$-posteriorまたは$alpha$-posteriorを使用する。
論文 参考訳(メタデータ) (2023-09-12T16:15:33Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - The Power of Preconditioning in Overparameterized Low-Rank Matrix
Sensing [42.905196856926615]
$textsfScaledGD($lambda$)$は、低ランク行列センシング問題に取り組むための事前条件付き勾配降下法である。
我々は、$textsfScaledGD($lambda$)$が、少数の反復の後、一定の線形速度で真の低ランク行列に収束することを示す。
論文 参考訳(メタデータ) (2023-02-02T16:13:27Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Metric-valued regression [9.78225953651633]
本稿では,2つの距離空間間のマッピングを効率よく学習するアルゴリズムを提案する。
このレベルの一般性において、我々は無知環境における損失に対する学習可能性の最初の結果である。
論文 参考訳(メタデータ) (2022-02-07T10:13:58Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - When does gradient descent with logistic loss interpolate using deep
networks with smoothed ReLU activations? [51.1848572349154]
固定幅深層ネットワークに適用された勾配勾配がロジスティック損失をゼロにする条件を確立する。
解析はSwishやHuberized ReLUといったReLUのスムーズな近似に適用する。
論文 参考訳(メタデータ) (2021-02-09T18:04:37Z) - Logsmooth Gradient Concentration and Tighter Runtimes for Metropolized
Hamiltonian Monte Carlo [23.781520510778716]
これは1次関数情報のみを用いたログコンケーブ分布に対する最初の高精度混合時間結果である。
我々は、$kappa$への依存が標準のMetropolized firstorderメソッドであることを示す。
論文 参考訳(メタデータ) (2020-02-10T22:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。