論文の概要: MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels
- arxiv url: http://arxiv.org/abs/2306.11560v2
- Date: Tue, 30 Jan 2024 12:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:14:49.836992
- Title: MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels
- Title(参考訳): mild: ノイズラベルを用いた学習のためのインスタンス学習ダイナミクスのモデリング
- Authors: Chuanyang Hu, Shipeng Yan, Zhitong Gao, Xuming He
- Abstract要約: クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
- 参考スコア(独自算出の注目度): 19.650299232829546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite deep learning has achieved great success, it often relies on a large
amount of training data with accurate labels, which are expensive and
time-consuming to collect. A prominent direction to reduce the cost is to learn
with noisy labels, which are ubiquitous in the real-world applications. A
critical challenge for such a learning task is to reduce the effect of network
memorization on the falsely-labeled data. In this work, we propose an iterative
selection approach based on the Weibull mixture model, which identifies clean
data by considering the overall learning dynamics of each data instance. In
contrast to the previous small-loss heuristics, we leverage the observation
that deep network is easy to memorize and hard to forget clean data. In
particular, we measure the difficulty of memorization and forgetting for each
instance via the transition times between being misclassified and being
memorized in training, and integrate them into a novel metric for selection.
Based on the proposed metric, we retain a subset of identified clean data and
repeat the selection procedure to iteratively refine the clean subset, which is
finally used for model training. To validate our method, we perform extensive
experiments on synthetic noisy datasets and real-world web data, and our
strategy outperforms existing noisy-label learning methods.
- Abstract(参考訳): ディープラーニングは大きな成功を収めていますが、正確なラベルを持つ大量のトレーニングデータに依存することが少なくありません。
コストを削減するための顕著な方向は、現実のアプリケーションでユビキタスなノイズラベルで学習することだ。
このような学習タスクにおける重要な課題は、偽ラベルデータに対するネットワーク記憶の影響を減らすことである。
本研究では,各データインスタンスの学習ダイナミクスを総合的に考慮し,クリーンデータを識別するweibull混合モデルに基づく反復的選択手法を提案する。
従来の小損失ヒューリスティックとは対照的に,ディープネットワークは記憶が容易で,クリーンなデータを忘れにくいという観測結果を活用する。
特に,誤分類されたり,トレーニング中に記憶されたりする移行時間を通じて,各インスタンスの記憶と記憶の難しさを計測し,選択のための新しい指標に統合する。
提案するメトリックに基づいて,特定されたクリーンデータのサブセットを保持し,選択手順を繰り返すことで,クリーンなサブセットを反復的に洗練し,最終的にモデルトレーニングに使用する。
提案手法を検証するため,我々は,合成ノイズデータセットと実世界のWebデータについて広範な実験を行った。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Leveraging Unlabeled Data to Track Memorization [15.4909376515404]
本稿では,ニューラルネットワークの記憶度を計測する指標であるサセプティビリティー(Susceptibility)を提案する。
様々なアーキテクチャやデータセット上での記憶の追跡におけるメトリックの有効性を実証的に示す。
論文 参考訳(メタデータ) (2022-12-08T18:36:41Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - INN: A Method Identifying Clean-annotated Samples via Consistency Effect
in Deep Neural Networks [1.1470070927586016]
ノイズのあるラベル付きトレーニングデータからクリーンなラベル付きデータを洗練するための新しい手法であるINNを導入する。
INN法は計算量が多いが、小型の戦略よりも安定で強力である。
論文 参考訳(メタデータ) (2021-06-29T09:06:21Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Self-semi-supervised Learning to Learn from NoisyLabeled Data [3.18577806302116]
高品質なラベル付きデータを得るには費用がかかるため、ノイズの多いラベルに頑健なトレーニングモデルの活発な研究領域につながる。
本研究では,クリーンでノイズの多いラベルをより正確に区別する手法を考案し,ノイズの多いラベル付きデータを学習するために自己半教師付き学習の知恵を借りた。
論文 参考訳(メタデータ) (2020-11-03T02:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。