論文の概要: Understanding Self-Distillation in the Presence of Label Noise
- arxiv url: http://arxiv.org/abs/2301.13304v1
- Date: Mon, 30 Jan 2023 21:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 18:29:36.980180
- Title: Understanding Self-Distillation in the Presence of Label Noise
- Title(参考訳): ラベルノイズの有無による自己蒸留の理解
- Authors: Rudrajit Das and Sujay Sanghavi
- Abstract要約: 自己蒸留(英: Self-distillation, SD)は、まず引用教師モデルを訓練し、次にその予測を用いてテクスリサマアーキテクチャーを用いて引用者モデルを訓練する過程である。
経験的に、SDはいくつかの設定でパフォーマンス向上をもたらすことが観察されている。
- 参考スコア(独自算出の注目度): 13.059088042391421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-distillation (SD) is the process of first training a \enquote{teacher}
model and then using its predictions to train a \enquote{student} model with
the \textit{same} architecture. Specifically, the student's objective function
is $\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions})
+ (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$, where
$\ell$ is some loss function and $\xi$ is some parameter $\in [0,1]$.
Empirically, SD has been observed to provide performance gains in several
settings. In this paper, we theoretically characterize the effect of SD in two
supervised learning problems with \textit{noisy labels}. We first analyze SD
for regularized linear regression and show that in the high label noise regime,
the optimal value of $\xi$ that minimizes the expected error in estimating the
ground truth parameter is surprisingly greater than 1. Empirically, we show
that $\xi > 1$ works better than $\xi \leq 1$ even with the cross-entropy loss
for several classification datasets when 50\% or 30\% of the labels are
corrupted. Further, we quantify when optimal SD is better than optimal
regularization. Next, we analyze SD in the case of logistic regression for
binary classification with random label corruption and quantify the range of
label corruption in which the student outperforms the teacher in terms of
accuracy. To our knowledge, this is the first result of its kind for the
cross-entropy loss.
- Abstract(参考訳): 自己蒸留 (self-distillation, sd) は、最初に \enquote{teacher} モデルを訓練し、その予測を使って \textit{same} アーキテクチャで \enquote{student} モデルを訓練するプロセスである。
具体的には、学生の目的関数は$\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions}) + (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$である。
経験的に、SDはいくつかの設定でパフォーマンス向上をもたらすことが観察されている。
本稿では,2つの教師付き学習問題におけるSDの効果を,‘textit{noisy labels} を用いて理論的に特徴づける。
まず、正規化線形回帰のSD解析を行い、高ラベルノイズ状態において、基底真理パラメータを推定する際の期待誤差を最小化する$\xi$の最適値が1より驚くほど大きいことを示す。
実験では,ラベルの50\%あるいは30\%が破損した場合に,いくつかの分類データセットのクロスエントロピー損失が生じる場合でも,$\xi > 1$が$\xi \leq 1$よりもうまく機能することを示した。
さらに、最適SDが最適正則化よりも優れている場合の定量化を行う。
次に,無作為なラベル汚職を伴う二項分類におけるロジスティック回帰を解析し,学生が教師より優れているラベル汚職の範囲を精度で定量化する。
私たちの知る限りでは、これはクロスエントロピー損失の最初の結果である。
関連論文リスト
- Retraining with Predicted Hard Labels Provably Increases Model Accuracy [77.71162068832108]
リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。
予測ラベルが与えられたラベルにマッチするサンプルを選択的にリトレーニングすることで、ラベルDP訓練が大幅に改善されることを実証的に示す。
論文 参考訳(メタデータ) (2024-06-17T04:53:47Z) - One-Bit Quantization and Sparsification for Multiclass Linear Classification with Strong Regularization [18.427215139020625]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。
f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文 参考訳(メタデータ) (2024-02-16T06:39:40Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Distribution-Independent Regression for Generalized Linear Models with
Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。
本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。
これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文 参考訳(メタデータ) (2023-09-20T21:41:59Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression [6.594338220264161]
機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。
最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
論文 参考訳(メタデータ) (2022-02-20T18:51:45Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Coresets for Classification -- Simplified and Strengthened [19.54307474041768]
損失関数の幅広いクラスを持つ線形分類器を訓練するための相対誤差コアセットを与える。
我々の構成は $tilde O(d cdot mu_y(X)2/epsilon2)$point, where $mu_y(X)$ は mathbbRn times d$ のデータ行列 $X と -1,1n$ のラベルベクトル $y の自然な複雑性測度である。
論文 参考訳(メタデータ) (2021-06-08T11:24:18Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。