論文の概要: DST: Data Selection and joint Training for Learning with Noisy Labels
- arxiv url: http://arxiv.org/abs/2103.00813v1
- Date: Mon, 1 Mar 2021 07:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:37:34.219941
- Title: DST: Data Selection and joint Training for Learning with Noisy Labels
- Title(参考訳): DST: ノイズラベルを用いた学習のためのデータ選択と共同トレーニング
- Authors: Yi Wei, Xue Mei, Xin Liu, Pengxiang Xu
- Abstract要約: データ選択と共同トレーニング(DST)法を提案し、正確なアノテーションでトレーニングサンプルを自動的に選択します。
各イテレーションにおいて、正しいラベル付きラベルと予測されたラベルは、混合モデルからの確率によってそれぞれ重み付けされる。
CIFAR-10、CIFAR-100、Clothing1Mの実験では、DSTは最先端の手法に匹敵するか、優れていることを示した。
- 参考スコア(独自算出の注目度): 11.0375827306207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a deep neural network heavily relies on a large amount of training
data with accurate annotations. To alleviate this problem, various methods have
been proposed to annotate the data automatically. However, automatically
generating annotations will inevitably yields noisy labels. In this paper, we
propose a Data Selection and joint Training (DST) method to automatically
select training samples with accurate annotations. Specifically, DST fits a
mixture model according to the original annotation as well as the predicted
label for each training sample, and the mixture model is utilized to
dynamically divide the training dataset into a correctly labeled dataset, a
correctly predicted set and a wrong dataset. Then, DST is trained with these
datasets in a supervised manner. Due to confirmation bias problem, we train the
two networks alternately, and each network is tasked to establish the data
division to teach another network. For each iteration, the correctly labeled
and predicted labels are reweighted respectively by the probabilities from the
mixture model, and a uniform distribution is used to generate the probabilities
of the wrong samples. Experiments on CIFAR-10, CIFAR-100 and Clothing1M
demonstrate that DST is the comparable or superior to the state-of-the-art
methods.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングは、正確なアノテーションを備えた大量のトレーニングデータに大きく依存する。
この問題を解決するために、データを自動注釈する様々な方法が提案されている。
しかし、アノテーションの自動生成は必然的に騒々しいラベルになります。
本稿では,正確なアノテーションを用いたトレーニングサンプルを自動的に選択するデータ選択共同学習法を提案する。
具体的には、dstは、トレーニングサンプル毎に元のアノテーションと予測ラベルに基づいて混合モデルに適合し、混合モデルは、トレーニングデータセットを正しくラベル付けされたデータセット、正しく予測されたセット、誤ったデータセットに動的に分割する。
次に、DSTはこれらのデータセットを教師付きでトレーニングする。
確認バイアス問題のため、2つのネットワークを交互に訓練し、各ネットワークに別のネットワークを教えるデータ分割を確立するよう指示する。
各イテレーションでは、正しくラベルされたラベルと予測されたラベルはそれぞれ混合モデルからの確率によって重み付けされ、誤ったサンプルの確率を生成するために一様分布が使用される。
CIFAR-10、CIFAR-100、Clothing1Mの実験では、DSTは最先端の手法に匹敵するか、優れていることを示した。
関連論文リスト
- Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Debiased Sample Selection for Combating Noisy Labels [24.296451733127956]
サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルが不均衡なトレーニングセットの効果を緩和する。
論文 参考訳(メタデータ) (2024-01-24T10:37:28Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。