論文の概要: Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features
- arxiv url: http://arxiv.org/abs/2212.09321v1
- Date: Mon, 19 Dec 2022 09:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:25:49.192364
- Title: Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features
- Title(参考訳): トレーニングダイナミクスから学ぶ - 手動で設計した機能を超えた誤ったラベルデータの識別
- Authors: Qingrui Jia, Xuhong Li, Lei Yu, Jiang Bian, Penghao Zhao, Shupeng Li,
Haoyi Xiong, Dejing Dou
- Abstract要約: LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
- 参考スコア(独自算出の注目度): 43.41573458276422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While mislabeled or ambiguously-labeled samples in the training set could
negatively affect the performance of deep models, diagnosing the dataset and
identifying mislabeled samples helps to improve the generalization power.
Training dynamics, i.e., the traces left by iterations of optimization
algorithms, have recently been proved to be effective to localize mislabeled
samples with hand-crafted features. In this paper, beyond manually designed
features, we introduce a novel learning-based solution, leveraging a noise
detector, instanced by an LSTM network, which learns to predict whether a
sample was mislabeled using the raw training dynamics as input. Specifically,
the proposed method trains the noise detector in a supervised manner using the
dataset with synthesized label noises and can adapt to various datasets (either
naturally or synthesized label-noised) without retraining. We conduct extensive
experiments to evaluate the proposed method. We train the noise detector based
on the synthesized label-noised CIFAR dataset and test such noise detector on
Tiny ImageNet, CUB-200, Caltech-256, WebVision and Clothing1M. Results show
that the proposed method precisely detects mislabeled samples on various
datasets without further adaptation, and outperforms state-of-the-art methods.
Besides, more experiments demonstrate that the mislabel identification can
guide a label correction, namely data debugging, providing orthogonal
improvements of algorithm-centric state-of-the-art techniques from the data
aspect.
- Abstract(参考訳): トレーニングセット内のラベル付きまたはあいまいなラベル付きサンプルは、深層モデルのパフォーマンスに悪影響を及ぼす可能性があるが、データセットの診断とラベル付きサンプルの同定は、一般化能力の向上に寄与する。
トレーニング力学、すなわち最適化アルゴリズムの反復によって残されているトレースは、最近、手作りの特徴を持つ間違ったラベル付きサンプルのローカライズに有効であることが証明された。
本稿では,手動で設計するだけでなく,LSTMネットワークを例に,サンプルが入力として生のトレーニングダイナミクスを用いて誤ラベルされているかどうかを判断するノイズ検出を応用した,新しい学習ベースソリューションを提案する。
具体的には、合成ラベルノイズを用いたデータセットを用いて教師あり方式でノイズ検出器を訓練し、再学習せずに様々なデータセット(自然あるいは合成ラベルノイズ)に適応することができる。
提案手法を評価するために広範な実験を行った。
我々は、合成ラベル付きCIFARデータセットに基づいてノイズ検出器を訓練し、Tiny ImageNet, CUB-200, Caltech-256, WebVision, Clothing1Mでそのようなノイズ検出器をテストする。
提案手法は, 各種データセットのラベルのずれを, さらなる適応を伴わずに正確に検出し, 最先端の手法より優れていることを示す。
さらに多くの実験では、ラベルの修正、すなわちデータデバッギングを導出し、データ側面からアルゴリズム中心の最先端技術を直交的に改善できることが示されている。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。