論文の概要: Benchmarking noisy label detection methods
- arxiv url: http://arxiv.org/abs/2510.16211v1
- Date: Fri, 17 Oct 2025 20:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.90028
- Title: Benchmarking noisy label detection methods
- Title(参考訳): ベンチマークノイズラベル検出法
- Authors: Henrique Pickler, Jorge K. S. Kamassury, Danilo Silva,
- Abstract要約: ラベルノイズは実世界のデータセットで一般的な問題であり、モデルのトレーニングと検証の両方に影響を及ぼす。
3つの基本成分に分解して検出手法の総合的なベンチマークを行う。
平均確率アグリゲーションとロジットマージンを組み合わせることで,サンプル内情報収集が最良の結果が得られることを確認した。
- 参考スコア(独自算出の注目度): 0.3154269505086154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label noise is a common problem in real-world datasets, affecting both model training and validation. Clean data are essential for achieving strong performance and ensuring reliable evaluation. While various techniques have been proposed to detect noisy labels, there is no clear consensus on optimal approaches. We perform a comprehensive benchmark of detection methods by decomposing them into three fundamental components: label agreement function, aggregation method, and information gathering approach (in-sample vs out-of-sample). This decomposition can be applied to many existing detection methods, and enables systematic comparison across diverse approaches. To fairly compare methods, we propose a unified benchmark task, detecting a fraction of training samples equal to the dataset's noise rate. We also introduce a novel metric: the false negative rate at this fixed operating point. Our evaluation spans vision and tabular datasets under both synthetic and real-world noise conditions. We identify that in-sample information gathering using average probability aggregation combined with the logit margin as the label agreement function achieves the best results across most scenarios. Our findings provide practical guidance for designing new detection methods and selecting techniques for specific applications.
- Abstract(参考訳): ラベルノイズは実世界のデータセットで一般的な問題であり、モデルのトレーニングと検証の両方に影響を及ぼす。
クリーンなデータは、強力なパフォーマンスを実現し、信頼性の高い評価を保証するために不可欠です。
雑音ラベルを検出するための様々な手法が提案されているが、最適手法について明確なコンセンサスはない。
本稿では,ラベル合意関数,アグリゲーション手法,情報収集手法(サンプル内対サンプル外)の3つの基本成分に分解して,検出手法の総合的なベンチマークを行う。
この分解は、既存の多くの検出方法に適用でき、様々なアプローチで体系的に比較できる。
提案手法を精度よく比較するために,データセットのノイズレートに匹敵するトレーニングサンプルのごく一部を検出する統一型ベンチマークタスクを提案する。
また、この固定された操作点における偽陰性率という新しい測度も導入する。
本評価は,合成騒音と実環境騒音の両条件下での視覚と表層データセットにまたがる。
平均確率アグリゲーションとロジットマージンを組み合わせたインサンプル情報収集は,ラベル合意関数がほとんどのシナリオで最高の結果が得られることを確認した。
本研究は,新しい検出手法を設計し,特定のアプリケーションを選択するための実践的なガイダンスを提供する。
関連論文リスト
- Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information [0.9821874476902969]
本稿では,ハイブリッドノイズシナリオ下でのデータ選択のための相互情報に基づくフレームワークを提案する。
各サンプルの総合的な相互情報に対するポイントワイドな寄与を計算し、低い寄与はノイズやラベルの誤りを示す。
ラベルの破損下では、高MIサンプルのトレーニングにより、ランダムサンプリングと比較して、最大15%の分類精度が向上する。
論文 参考訳(メタデータ) (2025-08-11T07:39:20Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - LaplaceConfidence: a Graph-based Approach for Learning with Noisy Labels [17.66525177980075]
ラプラスエネルギーを利用したラベル信頼(クリーン確率)を得る方法であるラプラス信頼(LaplaceConfidence)を紹介する。
LaplaceConfidenceはロバストトレーニングのための総合的な方法に組み込まれており、コトレーニング技術はラベルの信頼性を損なう。
我々の実験は、LaplaceConfidenceが、合成ノイズと実世界のノイズの両方の下で、ベンチマークデータセットの最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:44:30Z) - Rethinking Noisy Label Learning in Real-world Annotation Scenarios from
the Noise-type Perspective [38.24239397999152]
本稿では,雑音ラベル学習のためのサンプル選択に基づく新しい手法であるProto-semiを提案する。
Proto-semiは、すべてのサンプルをウォームアップを通じて信頼性と信頼できないデータセットに分割する。
自信のあるデータセットを活用することで、プロトタイプベクターがクラス特性をキャプチャするために構築される。
実世界の注釈付きデータセットの実証評価は、ノイズラベルから学習する問題の処理において、プロトセミの頑健さを裏付けるものである。
論文 参考訳(メタデータ) (2023-07-28T10:57:38Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。