論文の概要: Label Noise Cleaning for Supervised Classification via Bernoulli Random Sampling
- arxiv url: http://arxiv.org/abs/2603.14387v1
- Date: Sun, 15 Mar 2026 13:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.785698
- Title: Label Noise Cleaning for Supervised Classification via Bernoulli Random Sampling
- Title(参考訳): Bernoulliランダムサンプリングによるラベルノイズの除去
- Authors: Yuxin Liu, Xiong Jin, Yang Han,
- Abstract要約: 本論文では,Bernoulliランダムサンプリングに基づくラベルノイズ除去手法を提案する。
本研究では,Bernolliランダムサンプリングによって生成されたサブセットの平均ラベルノイズレベルが,すべてのクリーンな観測に対して同一に分布していることを示す。
平均ラベルノイズレベルは観測全体では独立ではないが、独立結合を導入することにより、2つのよく分離された分布の混合に収束することがさらに証明される。
- 参考スコア(独自算出の注目度): 3.701567608273827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label noise - incorrect labels assigned to observations - can substantially degrade the performance of supervised classifiers. This paper proposes a label noise cleaning method based on Bernoulli random sampling. We show that the mean label noise levels of subsets generated by Bernoulli random sampling containing a given observation are identically distributed for all clean observations, and identically distributed, with a different distribution, for all noisy observations. Although the mean label noise levels are not independent across observations, by introducing an independent coupling we further prove that they converge to a mixture of two well-separated distributions corresponding to clean and noisy observations. By establishing a linear model between cross-validated classification errors and label noise levels, we are able to approximate this mixture distribution and thereby separate clean and noisy observations without any prior label information. The proposed method is classifier-agnostic, theoretically justified, and demonstrates strong performance on both simulated and real datasets.
- Abstract(参考訳): ラベルノイズ - 観測に割り当てられた誤ったラベル - は、教師付き分類器のパフォーマンスを著しく低下させる可能性がある。
本論文では,Bernoulliランダムサンプリングに基づくラベルノイズ除去手法を提案する。
本研究では,Bernolliランダムサンプリングによって生成されたサブセットの平均ラベルノイズレベルが,すべてのクリーンな観測に対して同一に分布し,異なる分布で,ノイズの多い観測に対して同一に分布していることを示す。
平均ラベルノイズレベルは観測全体では独立ではないが、独立結合を導入することにより、クリーンでノイズの多い観測に対応する2つのよく区切られた分布の混合に収束することがさらに証明される。
クロスバリデード分類誤差とラベルノイズレベルの線形モデルを確立することにより、この混合分布を近似し、事前のラベル情報なしでクリーンかつノイズの多い観測を分離することができる。
提案手法は分類器に依存しない理論上は正当化され,シミュレーションと実データの両方で高い性能を示す。
関連論文リスト
- Combating Noisy Labels through Fostering Self- and Neighbor-Consistency [120.4394402099635]
ラベルノイズは様々な現実世界のシナリオで広まり、教師付きディープラーニングの課題を提起する。
我々は、Jo-SNC(textbfSelf- と textbfNeighbor-textbfConsistency に基づくサンプル選択とモデル正規化)というノイズロバスト手法を提案する。
我々は、クラスごとの選択閾値を調整するための自己適応型データ駆動しきい値設定方式を設計する。
論文 参考訳(メタデータ) (2026-01-19T07:55:29Z) - On the Role of Label Noise in the Feature Learning Process [90.49232384723268]
各サンプルはラベルに依存しない信号とラベルに依存しない雑音から構成される。
分析では,2つの重要な段階を同定する。第1段階では,ノイズを無視しながら,すべてのクリーンサンプルに完全に適合するモデルである。
ステージIIでは、ノイズ方向の勾配が信号の勾配を超え、ノイズのあるサンプルに過度に収まる。
論文 参考訳(メタデータ) (2025-05-25T00:13:28Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Robust Online Classification: From Estimation to Denoising [14.535583931446807]
一般仮説クラスを用いて,特徴のオンライン分類をラベルに分類する。
観測されたノイズラベルとノイズレス特徴を用いて予測を行う。
性能は、真のラベルと比較する場合、ミニマックスリスクによって測定される。
論文 参考訳(メタデータ) (2023-09-04T16:17:39Z) - Tackling Instance-Dependent Label Noise with Dynamic Distribution
Calibration [18.59803726676361]
インスタンスに依存したラベルノイズは現実的だが、ラベルの破損プロセスはインスタンスに直接依存する。
これは、トレーニングの分布とテストデータの間に深刻な分布シフトを引き起こし、訓練されたモデルの一般化を損なう。
本稿では,インスタンス依存ラベル雑音を用いた学習における分布変化に対処するために,動的分布校正戦略を採用する。
論文 参考訳(メタデータ) (2022-10-11T03:50:52Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Centrality and Consistency: Two-Stage Clean Samples Identification for
Learning with Instance-Dependent Noisy Labels [87.48541631675889]
本稿では,2段階のクリーンサンプル識別手法を提案する。
まず,クリーンサンプルの早期同定にクラスレベルの特徴クラスタリング手法を用いる。
次に, 基底真理クラス境界に近い残余のクリーンサンプルについて, 一貫性に基づく新しい分類法を提案する。
論文 参考訳(メタデータ) (2022-07-29T04:54:57Z) - Label Noise in Adversarial Training: A Novel Perspective to Study Robust
Overfitting [45.58217741522973]
逆行訓練においてラベルノイズが存在することを示す。
このようなラベルノイズは、正反対例の真のラベル分布とクリーン例から受け継いだラベルとのミスマッチに起因する。
本稿では,ラベルノイズと頑健なオーバーフィッティングに対処するため,ラベルの自動校正手法を提案する。
論文 参考訳(メタデータ) (2021-10-07T01:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。