論文の概要: Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples
- arxiv url: http://arxiv.org/abs/2403.08618v1
- Date: Wed, 13 Mar 2024 15:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:17.111463
- Title: Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples
- Title(参考訳): Verifix: ラベルノイズのロバスト性を改善するためのトレーニング後の補正
検証サンプル
- Authors: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy
- Abstract要約: トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
- 参考スコア(独自算出の注目度): 9.91998873101083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label corruption, where training samples have incorrect labels, can
significantly degrade the performance of machine learning models. This
corruption often arises from non-expert labeling or adversarial attacks.
Acquiring large, perfectly labeled datasets is costly, and retraining large
models from scratch when a clean dataset becomes available is computationally
expensive. To address this challenge, we propose Post-Training Correction, a
new paradigm that adjusts model parameters after initial training to mitigate
label noise, eliminating the need for retraining. We introduce Verifix, a novel
Singular Value Decomposition (SVD) based algorithm that leverages a small,
verified dataset to correct the model weights using a single update. Verifix
uses SVD to estimate a Clean Activation Space and then projects the model's
weights onto this space to suppress activations corresponding to corrupted
data. We demonstrate Verifix's effectiveness on both synthetic and real-world
label noise. Experiments on the CIFAR dataset with 25% synthetic corruption
show 7.36% generalization improvements on average. Additionally, we observe
generalization improvements of up to 2.63% on naturally corrupted datasets like
WebVision1.0 and Clothing1M.
- Abstract(参考訳): トレーニングサンプルが誤ったラベルを持つラベルの破損は、機械学習モデルの性能を著しく低下させる可能性がある。
この汚職は、しばしば非専門家のラベル付けや敵の攻撃によって生じる。
大規模で完全にラベル付けされたデータセットの取得にはコストがかかり、クリーンなデータセットが利用可能になった場合、スクラッチから大規模なモデルを再トレーニングするのは計算コストがかかる。
この課題に対処するために,ラベルノイズを軽減するために初期訓練後のモデルパラメータを調整する新しいパラダイムであるPost-Training Correctionを提案する。
単一更新でモデルの重みを補正するために,小さな検証データセットを活用する,SVD(Singular Value Decomposition)ベースの新しいアルゴリズムであるVerifixを導入する。
VerifixはSVDを使用してクリーンなアクティベーション空間を推定し、その後モデルの重みをこの空間に投射して、破損したデータに対応するアクティベーションを抑制する。
合成および実世界のラベルノイズに対するVerifixの有効性を実証する。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
さらに、WebVision1.0 や Clothing1M のような自然に破損したデータセット上で、最大2.63%の一般化の改善を観察する。
関連論文リスト
- Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label [6.818488262543482]
そこで本研究では,トレーニング中のラベルのずれを識別する新しい手法を提案する。
インタープレイを分離し、損失からより多くのセマンティック情報をマイニングするために、ジャンプ方式の更新を行うネットワークは1つだけです。
提案手法は, ピークメモリフットプリントの高速化, ピークメモリフットプリントの0.56タイム, 各種ノイズ設定による最先端処理よりも優れたロバスト性を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:54:09Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Self-paced Resistance Learning against Overfitting on Noisy Labels [25.916498598323667]
ディープニューラルネットワークは、まずおそらく正しいラベルデータを記憶し、次に破損したラベルサンプルを記憶する。
破損したラベルに抵抗する新規かつ簡便な自己ペース抵抗フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-07T04:17:20Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。