論文の概要: Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels
- arxiv url: http://arxiv.org/abs/2407.16802v1
- Date: Tue, 23 Jul 2024 19:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:44:18.264550
- Title: Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels
- Title(参考訳): 雑音ラベルを用いた長期データからの分布を考慮したロバスト学習
- Authors: Jae Soon Baik, In Young Yoon, Kun Hoon Kim, Jun Won Choi,
- Abstract要約: 実世界のデータは、しばしば長い尾の分布とラベルノイズを示し、一般化性能を著しく低下させる。
近年の研究では,各クラス内の高信頼度サンプルに基づいて,各クラスのセントロイドを推定するノイズの多いサンプル選択手法に焦点が当てられている。
そこで我々は,分散型サンプル選択・コントラスト学習(DaSC)を提案し,拡張型セントロイドを生成する。
- 参考スコア(独自算出の注目度): 8.14255560923536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have demonstrated remarkable advancements in various fields using large, well-annotated datasets. However, real-world data often exhibit long-tailed distributions and label noise, significantly degrading generalization performance. Recent studies addressing these issues have focused on noisy sample selection methods that estimate the centroid of each class based on high-confidence samples within each target class. The performance of these methods is limited because they use only the training samples within each class for class centroid estimation, making the quality of centroids susceptible to long-tailed distributions and noisy labels. In this study, we present a robust training framework called Distribution-aware Sample Selection and Contrastive Learning (DaSC). Specifically, DaSC introduces a Distribution-aware Class Centroid Estimation (DaCC) to generate enhanced class centroids. DaCC performs weighted averaging of the features from all samples, with weights determined based on model predictions. Additionally, we propose a confidence-aware contrastive learning strategy to obtain balanced and robust representations. The training samples are categorized into high-confidence and low-confidence samples. Our method then applies Semi-supervised Balanced Contrastive Loss (SBCL) using high-confidence samples, leveraging reliable label information to mitigate class bias. For the low-confidence samples, our method computes Mixup-enhanced Instance Discrimination Loss (MIDL) to improve their representations in a self-supervised manner. Our experimental results on CIFAR and real-world noisy-label datasets demonstrate the superior performance of the proposed DaSC compared to previous approaches.
- Abstract(参考訳): ディープニューラルネットワークは、大きく、よく注釈付けされたデータセットを使用して、様々な分野で顕著な進歩を見せている。
しかし、実世界のデータはしばしば長い尾の分布とラベルノイズを示し、一般化性能は著しく低下する。
これらの課題に対処する最近の研究は、各クラス内の高信頼度サンプルに基づいて各クラスのセントロイドを推定するノイズの多いサンプル選択方法に焦点を当てている。
これらの手法の性能は,各クラス内のトレーニングサンプルのみをクラスセントロイド推定に用いて,長い尾の分布やノイズラベルの影響を受けやすいようにしているため,制限されている。
本研究では,DASC(Dis Distribution-aware Sample Selection and Contrastive Learning)と呼ばれる,堅牢な学習フレームワークを提案する。
特に、DASCは、拡張されたクラスセントロイドを生成するために、分散対応のクラスセントロイド推定(DaCC)を導入している。
DaCCは、モデル予測に基づいて、すべてのサンプルから特徴の重み付けを行い、重み付けを行う。
さらに,バランスの取れた,堅牢な表現を得るために,信頼度に配慮したコントラスト学習戦略を提案する。
トレーニングサンプルは、高信頼度と低信頼度に分類される。
そこで本手法では,高信頼度サンプルを用いてSBCL(Semi-supervised Balanced Contrastive Loss)を適用し,信頼性の高いラベル情報を利用してクラスバイアスを緩和する。
低信頼度サンプルに対しては、MIDL(Mixup-enhanced Instance Discrimination Loss)を計算し、自己教師型で表現を改善する。
CIFARと実世界の雑音ラベルデータセットに関する実験結果から,提案したDASCの従来の手法と比較して優れた性能を示した。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning
Classification [0.0]
クラウドソースおよびアンサンブル学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。
提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。
我々は10の異なるデータセットにまたがる10の既存手法に対するアプローチを広範囲に評価し、それぞれに異なる数のアノテータをラベル付けした。
論文 参考訳(メタデータ) (2023-10-25T01:58:37Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - Addressing Class Imbalance in Semi-supervised Image Segmentation: A
Study on Cardiac MRI [28.656853454251426]
特定のクラスに対する不十分なトレーニングは、生成された擬似ラベルにより多くのノイズを導入し、全体的な学習に影響を与える可能性がある。
授業中にクラスワイドのパフォーマンスを記録する信頼度アレーの維持について提案する。
これらの信頼度スコアのファジィ融合は、各サンプルにおける個々の信頼度指標を適応的に優先順位付けするために提案される。
提案手法は, 動的重み付けを施した低性能クラスをすべて考慮し, トレーニング中のノイズの大半を除去しようとするものである。
論文 参考訳(メタデータ) (2022-08-31T21:25:00Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Multi-Class Data Description for Out-of-distribution Detection [25.853322158250435]
Deep-MCDDは、分布外(OOD)サンプルを検出するだけでなく、分布内(ID)サンプルを分類するのに効果的です。
ガウス微分分析の概念をディープニューラルネットワークに統合することにより,クラス条件分布を学習する深層学習目標を提案する。
論文 参考訳(メタデータ) (2021-04-02T08:41:51Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。