論文の概要: Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples
- arxiv url: http://arxiv.org/abs/2403.08618v1
- Date: Wed, 13 Mar 2024 15:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:17.111463
- Title: Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples
- Title(参考訳): Verifix: ラベルノイズのロバスト性を改善するためのトレーニング後の補正
検証サンプル
- Authors: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy
- Abstract要約: トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
- 参考スコア(独自算出の注目度): 9.91998873101083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label corruption, where training samples have incorrect labels, can
significantly degrade the performance of machine learning models. This
corruption often arises from non-expert labeling or adversarial attacks.
Acquiring large, perfectly labeled datasets is costly, and retraining large
models from scratch when a clean dataset becomes available is computationally
expensive. To address this challenge, we propose Post-Training Correction, a
new paradigm that adjusts model parameters after initial training to mitigate
label noise, eliminating the need for retraining. We introduce Verifix, a novel
Singular Value Decomposition (SVD) based algorithm that leverages a small,
verified dataset to correct the model weights using a single update. Verifix
uses SVD to estimate a Clean Activation Space and then projects the model's
weights onto this space to suppress activations corresponding to corrupted
data. We demonstrate Verifix's effectiveness on both synthetic and real-world
label noise. Experiments on the CIFAR dataset with 25% synthetic corruption
show 7.36% generalization improvements on average. Additionally, we observe
generalization improvements of up to 2.63% on naturally corrupted datasets like
WebVision1.0 and Clothing1M.
- Abstract(参考訳): トレーニングサンプルが誤ったラベルを持つラベルの破損は、機械学習モデルの性能を著しく低下させる可能性がある。
この汚職は、しばしば非専門家のラベル付けや敵の攻撃によって生じる。
大規模で完全にラベル付けされたデータセットの取得にはコストがかかり、クリーンなデータセットが利用可能になった場合、スクラッチから大規模なモデルを再トレーニングするのは計算コストがかかる。
この課題に対処するために,ラベルノイズを軽減するために初期訓練後のモデルパラメータを調整する新しいパラダイムであるPost-Training Correctionを提案する。
単一更新でモデルの重みを補正するために,小さな検証データセットを活用する,SVD(Singular Value Decomposition)ベースの新しいアルゴリズムであるVerifixを導入する。
VerifixはSVDを使用してクリーンなアクティベーション空間を推定し、その後モデルの重みをこの空間に投射して、破損したデータに対応するアクティベーションを抑制する。
合成および実世界のラベルノイズに対するVerifixの有効性を実証する。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
さらに、WebVision1.0 や Clothing1M のような自然に破損したデータセット上で、最大2.63%の一般化の改善を観察する。
関連論文リスト
- Efficient Adaptive Label Refinement for Label Noise Learning [14.617885790129336]
本稿では,不適切なラベルを回避し,クリーンなサンプルを徹底的に学習するための適応ラベル精製(ALR)を提案する。
ALRは単純で効率的であり、ノイズや補助的なデータセットに関する事前の知識を必要としない。
人工ラベルノイズ付きベンチマークデータセット(CIFAR-10/100)と固有ノイズ付き実世界のデータセット(ANIMAL-10N, Clothing1M, WebVision)を用いて、ALRの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-01T09:58:08Z) - Mitigating Instance-Dependent Label Noise: Integrating Self-Supervised Pretraining with Pseudo-Label Refinement [3.272177633069322]
実世界のデータセットは、アノテーションプロセス中にヒューマンエラー、あいまいさ、リソース制約のために、ノイズの多いラベルを含むことが多い。
そこで本研究では,SimCLRを用いた自己教師型学習と反復的擬似ラベル改良を組み合わせた新しいフレームワークを提案する。
提案手法は,特に高騒音条件下では,いくつかの最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-06T09:56:49Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Sample Prior Guided Robust Model Learning to Suppress Noisy Labels [8.119439844514973]
本稿では,サンプルの事前知識を発生させることで雑音を抑えるための深層モデルの学習を行う新しいフレームワークPGDFを提案する。
我々のフレームワークは、より有益なハードクリーンなサンプルをクリーンにラベル付けされたセットに保存することができる。
我々は,CIFAR-10とCIFAR-100に基づく合成データセットと,WebVisionとChrothing1Mを用いた実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2021-12-02T13:09:12Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Rethinking Curriculum Learning with Incremental Labels and Adaptive
Compensation [35.593312267921256]
人間と同様に、ディープネットワークは、サンプルが組織化され、意味のある順序やカリキュラムで導入されたときに、よりよく学習することが示されている。
インクリメンタルラベルと適応補償を用いた学習(LILAC)を提案する。
論文 参考訳(メタデータ) (2020-01-13T21:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。