Fugu-MT 論文翻訳(概要): Understanding Self-Distillation in the Presence of Label Noise

論文の概要: Understanding Self-Distillation in the Presence of Label Noise

arxiv url: http://arxiv.org/abs/2301.13304v1
Date: Mon, 30 Jan 2023 21:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-01 18:29:36.980180
Title: Understanding Self-Distillation in the Presence of Label Noise
Title（参考訳）: ラベルノイズの有無による自己蒸留の理解
Authors: Rudrajit Das and Sujay Sanghavi
Abstract要約: 自己蒸留(英: Self-distillation, SD)は、まず引用教師モデルを訓練し、次にその予測を用いてテクスリサマアーキテクチャーを用いて引用者モデルを訓練する過程である。経験的に、SDはいくつかの設定でパフォーマンス向上をもたらすことが観察されている。
参考スコア（独自算出の注目度）: 13.059088042391421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-distillation (SD) is the process of first training a \enquote{teacher} model and then using its predictions to train a \enquote{student} model with the \textit{same} architecture. Specifically, the student's objective function is $\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions}) + (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$, where $\ell$ is some loss function and $\xi$ is some parameter $\in [0,1]$. Empirically, SD has been observed to provide performance gains in several settings. In this paper, we theoretically characterize the effect of SD in two supervised learning problems with \textit{noisy labels}. We first analyze SD for regularized linear regression and show that in the high label noise regime, the optimal value of $\xi$ that minimizes the expected error in estimating the ground truth parameter is surprisingly greater than 1. Empirically, we show that $\xi > 1$ works better than $\xi \leq 1$ even with the cross-entropy loss for several classification datasets when 50\% or 30\% of the labels are corrupted. Further, we quantify when optimal SD is better than optimal regularization. Next, we analyze SD in the case of logistic regression for binary classification with random label corruption and quantify the range of label corruption in which the student outperforms the teacher in terms of accuracy. To our knowledge, this is the first result of its kind for the cross-entropy loss.
Abstract（参考訳）: 自己蒸留 (self-distillation, sd) は、最初に \enquote{teacher} モデルを訓練し、その予測を使って \textit{same} アーキテクチャで \enquote{student} モデルを訓練するプロセスである。具体的には、学生の目的関数は$\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions}) + (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$である。経験的に、SDはいくつかの設定でパフォーマンス向上をもたらすことが観察されている。本稿では,2つの教師付き学習問題におけるSDの効果を,‘textit{noisy labels} を用いて理論的に特徴づける。まず、正規化線形回帰のSD解析を行い、高ラベルノイズ状態において、基底真理パラメータを推定する際の期待誤差を最小化する$\xi$の最適値が1より驚くほど大きいことを示す。実験では,ラベルの50\%あるいは30\%が破損した場合に,いくつかの分類データセットのクロスエントロピー損失が生じる場合でも,$\xi > 1$が$\xi \leq 1$よりもうまく機能することを示した。さらに、最適SDが最適正則化よりも優れている場合の定量化を行う。次に,無作為なラベル汚職を伴う二項分類におけるロジスティック回帰を解析し,学生が教師より優れているラベル汚職の範囲を精度で定量化する。私たちの知る限りでは、これはクロスエントロピー損失の最初の結果である。

関連論文リスト

Differentially Private Sparse Linear Regression with Heavy-tailed Responses [5.228567425731136]
本稿では,高次元条件下での重み付き応答を用いたDPスパース線形回帰の包括的研究を行う。 DP-IHT-H法は,ハマー損失とプライベート反復硬度閾値を利用して (tildeObiggl( s* frac12) cdot biggl(fraclog dnbiggr)fraczeta1 + zeta1 + zeta2 + 2zetaの誤差境界を求める。
論文参考訳（メタデータ） (2025-06-07T16:56:20Z)
Attention with Trained Embeddings Provably Selects Important Tokens [73.77633297039097]
トーケン埋め込みは言語モデリングにおいて重要な役割を担っているが、この実践的関連性にもかかわらず、理論的な理解は限られている。本論文は,勾配降下法により得られた埋め込み構造を特徴付けることにより,そのギャップを解消する。実世界のデータセット(IMDB、Yelp)の実験では、我々の理論が明らかにしたものに近い現象が示されている。
論文参考訳（メタデータ） (2025-05-22T21:00:09Z)
Retraining with Predicted Hard Labels Provably Increases Model Accuracy [77.71162068832108]
リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。予測ラベルが与えられたラベルにマッチするサンプルを選択的にリトレーニングすることで、ラベルDP訓練が大幅に改善されることを実証的に示す。
論文参考訳（メタデータ） (2024-06-17T04:53:47Z)
Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文参考訳（メタデータ） (2024-05-24T11:22:19Z)
One-Bit Quantization and Sparsification for Multiclass Linear Classification with Strong Regularization [18.427215139020625]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。 f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文参考訳（メタデータ） (2024-02-16T06:39:40Z)
Corruption-Robust Offline Reinforcement Learning with General Function Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文参考訳（メタデータ） (2023-10-23T04:07:26Z)
Distribution-Independent Regression for Generalized Linear Models with Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文参考訳（メタデータ） (2023-09-20T21:41:59Z)
Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文参考訳（メタデータ） (2023-08-06T15:38:44Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Memorize to Generalize: on the Necessity of Interpolation in High Dimensional Linear Regression [6.594338220264161]
機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
論文参考訳（メタデータ） (2022-02-20T18:51:45Z)
Black-Box Generalization [31.80268332522017]
微分一般化によるブラックボックス学習のための最初の誤り解析を行う。どちらの一般化も独立$d$,$K$であり、適切な選択の下では学習率がわずかに低下していることを示す。
論文参考訳（メタデータ） (2022-02-14T17:14:48Z)
Locality defeats the curse of dimensionality in convolutional teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文参考訳（メタデータ） (2021-06-16T08:27:31Z)
Coresets for Classification -- Simplified and Strengthened [19.54307474041768]
損失関数の幅広いクラスを持つ線形分類器を訓練するための相対誤差コアセットを与える。我々の構成は $tilde O(d cdot mu_y(X)2/epsilon2)$point, where $mu_y(X)$ は mathbbRn times d$ のデータ行列 $X と -1,1n$ のラベルベクトル $y の自然な複雑性測度である。
論文参考訳（メタデータ） (2021-06-08T11:24:18Z)
Outlier-robust sparse/low-rank least-squares regression and robust matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文参考訳（メタデータ） (2020-12-12T07:42:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。