論文の概要: Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance
Tradeoff Perspective
- arxiv url: http://arxiv.org/abs/2102.00650v1
- Date: Mon, 1 Feb 2021 05:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 20:37:44.452640
- Title: Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance
Tradeoff Perspective
- Title(参考訳): 知識蒸留のためのソフトラベルの再考:バイアス分散トレードオフの視点
- Authors: Helong Zhou, Liangchen Song, Jiajie Chen, Ye Zhou, Guoli Wang, Junsong
Yuan, Qian Zhang
- Abstract要約: 軟質ラベルを用いた蒸留によるバイアス分散トレードオフについて検討した。
本稿では,サンプル単位のバイアス分散トレードオフを適応的に処理するための,新しい重み付きソフトラベルを提案する。
- 参考スコア(独自算出の注目度): 63.87421152879726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is an effective approach to leverage a well-trained
network or an ensemble of them, named as the teacher, to guide the training of
a student network. The outputs from the teacher network are used as soft labels
for supervising the training of a new network. Recent studies
\citep{muller2019does,yuan2020revisiting} revealed an intriguing property of
the soft labels that making labels soft serves as a good regularization to the
student network. From the perspective of statistical learning, regularization
aims to reduce the variance, however how bias and variance change is not clear
for training with soft labels. In this paper, we investigate the bias-variance
tradeoff brought by distillation with soft labels. Specifically, we observe
that during training the bias-variance tradeoff varies sample-wisely. Further,
under the same distillation temperature setting, we observe that the
distillation performance is negatively associated with the number of some
specific samples, which are named as regularization samples since these samples
lead to bias increasing and variance decreasing. Nevertheless, we empirically
find that completely filtering out regularization samples also deteriorates
distillation performance. Our discoveries inspired us to propose the novel
weighted soft labels to help the network adaptively handle the sample-wise
bias-variance tradeoff. Experiments on standard evaluation benchmarks validate
the effectiveness of our method. Our code is available at
\url{https://github.com/bellymonster/Weighted-Soft-Label-Distillation}.
- Abstract(参考訳): 知識蒸留は、よく訓練されたネットワークまたはそれらのアンサンブルを利用して、学生ネットワークのトレーニングを指導するための効果的なアプローチである。
教師ネットワークからの出力は、新しいネットワークのトレーニングを監督するためのソフトラベルとして使用される。
最近の研究では、ソフトラベルの興味をそそる性質が示され、ラベルをソフトにすることは学生ネットワークにとって良い正規化となる。
統計的学習の観点から、正規化はばらつきを減らすことを目指していますが、ソフトラベルによるトレーニングではバイアスとばらつきの変化が明確ではありません。
本稿では,ソフトラベル蒸留によるバイアス分散トレードオフについて検討する。
具体的には、トレーニング中のバイアス分散トレードオフがサンプルごとに異なることを観察する。
さらに、同じ蒸留温度設定下では、蒸留性能がいくつかの特定のサンプルの数に負の関連していることを観察します。
しかし, 正則化試料を完全にろ過しても蒸留性能は低下する。
私たちの発見は、ネットワークがサンプルワイズバイアス分散トレードオフを適応的に処理するのに役立つ、新しい重み付きソフトラベルを提案しました。
本手法の有効性を検証するための標準評価ベンチマーク実験を行った。
コードは \url{https://github.com/bellymonster/Weighted-Soft-Label-Distillation} で入手できます。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Learning From Biased Soft Labels [48.84637168570285]
ある研究では、知識の蒸留とラベルの平滑化がソフトラベルからの学習として統合できることが示されている。
本稿では, バイアス付きソフトラベルが依然として有効かどうかを考察する。
論文 参考訳(メタデータ) (2023-02-16T08:57:48Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Is Label Smoothing Truly Incompatible with Knowledge Distillation: An
Empirical Study [59.95267695402516]
本研究では,ラベルスムージングがナレッジ蒸留と相容れないことを実証的に明らかにする。
ラベルスムージングが意味的に類似したクラスと異なるクラスの分布にどのように影響するかに関する新しい接続を提供します。
我々は,その一面性と不完全性について,大規模解析,可視化,包括的な実験を通じて検討する。
論文 参考訳(メタデータ) (2021-04-01T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。