論文の概要: Retraining with Predicted Hard Labels Provably Increases Model Accuracy
- arxiv url: http://arxiv.org/abs/2406.11206v3
- Date: Wed, 07 May 2025 19:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 15:15:31.823582
- Title: Retraining with Predicted Hard Labels Provably Increases Model Accuracy
- Title(参考訳): 予測ラベルによるリトレーニングによるモデル精度の向上
- Authors: Rudrajit Das, Inderjit S. Dhillon, Alessandro Epasto, Adel Javanmard, Jieming Mao, Vahab Mirrokni, Sujay Sanghavi, Peilin Zhong,
- Abstract要約: リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。
予測ラベルが与えられたラベルにマッチするサンプルを選択的に再トレーニングすることで、余分なプライバシコストを伴わずにラベルDPトレーニングを大幅に改善できることを実証的に示す。
- 参考スコア(独自算出の注目度): 77.71162068832108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of a model trained with noisy labels is often improved by simply \textit{retraining} the model with its \textit{own predicted hard labels} (i.e., 1/0 labels). Yet, a detailed theoretical characterization of this phenomenon is lacking. In this paper, we theoretically analyze retraining in a linearly separable binary classification setting with randomly corrupted labels given to us and prove that retraining can improve the population accuracy obtained by initially training with the given (noisy) labels. To the best of our knowledge, this is the first such theoretical result. Retraining finds application in improving training with local label differential privacy (DP) which involves training with noisy labels. We empirically show that retraining selectively on the samples for which the predicted label matches the given label significantly improves label DP training at no extra privacy cost; we call this consensus-based retraining. As an example, when training ResNet-18 on CIFAR-100 with $\epsilon=3$ label DP, we obtain more than 6% improvement in accuracy with consensus-based retraining.
- Abstract(参考訳): ノイズラベルでトレーニングされたモデルの性能は、単に「textit{retraining}」と「textit{own predict hard labels」(つまり、1/0ラベル)によって改善されることが多い。
しかし、この現象の詳細な理論的特徴は欠如している。
本稿では、線形分離可能なバイナリ分類設定における再学習を、ランダムに破損したラベルで理論的に解析し、与えられた(ノイズ)ラベルでの初期訓練によって得られた集団の精度を向上させることを証明する。
私たちの知る限りでは、これが最初の理論的な結果である。
リトレーニングは、ノイズのあるラベルによるトレーニングを含むローカルラベル差分プライバシ(DP)によるトレーニングを改善するために応用できる。
予測ラベルがラベルにマッチするサンプルに対して選択的にリトレーニングを行うことは、余分なプライバシコストを伴わずにラベルDPトレーニングを大幅に改善することを示し、これをコンセンサスベースのリトレーニングと呼ぶ。
例えば、CIFAR-100でResNet-18を$\epsilon=3$ラベルDPでトレーニングすると、コンセンサスベースのリトレーニングによる精度が6%以上向上する。
関連論文リスト
- Learning from Noisy Labels via Self-Taught On-the-Fly Meta Loss Rescaling [6.861041888341339]
そこで本研究では,リウェイトトレーニングサンプルに対する非教師なしメタロス再スケーリングを提案する。
我々は,対話モデリングの課題を生かした,初級訓練データの再重み付けを試みている。
我々の戦略は、ノイズの多いクリーンなデータに直面し、クラス不均衡を処理し、ノイズの多いラベルへの過度な適合を防ぐ。
論文 参考訳(メタデータ) (2024-12-17T14:37:50Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Neural Networks Against (and For) Self-Training: Classification with
Small Labeled and Large Unlabeled Sets [11.385682758047775]
自己学習の弱点の1つは意味的ドリフト問題である。
擬似ラベルの役割を再構築し,階層的な情報順序を創出する。
自己学習における重要なステップは、自信の予測を使用して、最適な候補の擬似ラベルを選択することである。
論文 参考訳(メタデータ) (2023-12-31T19:25:34Z) - Robust Data Pruning under Label Noise via Maximizing Re-labeling
Accuracy [34.02350195269502]
我々は再ラベルでデータプルーニングの問題を定式化する。
そこで本研究では,すべてのトレーニング例の局所的信頼度を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
論文 参考訳(メタデータ) (2023-11-02T05:40:26Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Continuous Soft Pseudo-Labeling in ASR [32.19655911858698]
連続擬似ラベル(PL)アルゴリズムは,音声認識における半教師あり学習の強力な戦略として登場した。
ソフトラベルのターゲットは、フレーム毎に縮退したトークン分布にモデルを崩壊させることで、トレーニングのばらつきにつながる可能性がある。
論文 参考訳(メタデータ) (2022-11-11T05:16:18Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Error-Bounded Correction of Noisy Labels [17.510654621245656]
ノイズのある分類器の予測は、トレーニングデータのラベルがクリーンかどうかを示す良い指標であることを示す。
理論的結果に基づいて,雑音分類器の予測に基づいてラベルを補正する新しいアルゴリズムを提案する。
ラベル補正アルゴリズムをディープニューラルネットワークのトレーニングや,複数の公開データセット上で優れたテスト性能を実現するトレーニングモデルに組み込む。
論文 参考訳(メタデータ) (2020-11-19T19:23:23Z) - Learning to Purify Noisy Labels via Meta Soft Label Corrector [49.92310583232323]
最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。
ラベル修正戦略はこの問題を軽減するために一般的に用いられる。
メタ学習モデルを提案する。
論文 参考訳(メタデータ) (2020-08-03T03:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。