論文の概要: Bias-Aware Mislabeling Detection via Decoupled Confident Learning
- arxiv url: http://arxiv.org/abs/2507.07216v1
- Date: Wed, 09 Jul 2025 18:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.175014
- Title: Bias-Aware Mislabeling Detection via Decoupled Confident Learning
- Title(参考訳): Decoupled Confident Learningによるバイアス認識ミスラベル検出
- Authors: Yunyi Li, Maria De-Arteaga, Maytal Saar-Tsechansky,
- Abstract要約: ラベルバイアスに影響を受けるデータセットのラベルの誤りを検出するために,Decole(Decoupled Confident Learning)を提案する。
DeCoLeはバイアス認識の誤ラベル検出に優れ、ラベルエラー検出の代替手法よりも一貫して優れている。
私たちの研究は、バイアスを意識したラベル検出の課題を特定し、対処し、DeCoLeを組織データ管理プラクティスに統合する方法に関するガイダンスを提供します。
- 参考スコア(独自算出の注目度): 12.45833130404355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliable data is a cornerstone of modern organizational systems. A notable data integrity challenge stems from label bias, which refers to systematic errors in a label, a covariate that is central to a quantitative analysis, such that its quality differs across social groups. This type of bias has been conceptually and empirically explored and is widely recognized as a pressing issue across critical domains. However, effective methodologies for addressing it remain scarce. In this work, we propose Decoupled Confident Learning (DeCoLe), a principled machine learning based framework specifically designed to detect mislabeled instances in datasets affected by label bias, enabling bias aware mislabelling detection and facilitating data quality improvement. We theoretically justify the effectiveness of DeCoLe and evaluate its performance in the impactful context of hate speech detection, a domain where label bias is a well documented challenge. Empirical results demonstrate that DeCoLe excels at bias aware mislabeling detection, consistently outperforming alternative approaches for label error detection. Our work identifies and addresses the challenge of bias aware mislabeling detection and offers guidance on how DeCoLe can be integrated into organizational data management practices as a powerful tool to enhance data reliability.
- Abstract(参考訳): 信頼性のあるデータは、現代の組織システムの基盤です。
顕著なデータ整合性の課題はラベルバイアス(ラベルの体系的な誤り)から来ており、その品質が社会グループによって異なるように、定量的分析の中心となる変量体(covariate)を指す。
この種の偏見は概念的にも経験的にも検討され、重要な領域にまたがるプレス問題として広く認識されている。
しかし、それに対応する効果的な手法は乏しいままである。
本研究では,ラベルバイアスに影響を受けるデータセットのラベルの誤りを検知し,バイアスを意識した誤り検出を実現し,データ品質の向上を促進するための,機械学習に基づく原則的フレームワークであるDecoLeを提案する。
我々はDeCoLeの有効性を理論的に正当化し、ラベルバイアスが十分に文書化された課題であるヘイトスピーチ検出のインパクトのある文脈でその性能を評価する。
実験結果から、DeCoLeはバイアス認識の誤ラベル検出に優れており、ラベル誤り検出の代替手法よりも一貫して優れていることが示された。
私たちの研究は、偏見を意識したラベル検出の課題を特定し、データ信頼性を高める強力なツールとして、DeCoLeを組織データ管理プラクティスに統合する方法についてガイダンスを提供しています。
関連論文リスト
- Credible Teacher for Semi-Supervised Object Detection in Open Scene [106.25850299007674]
Open Scene Semi-Supervised Object Detection (O-SSOD)では、ラベル付きデータはラベル付きデータで観測されていない未知のオブジェクトを含む可能性がある。
より不確実性が、偽ラベルのローカライズと分類精度の低下につながるため、主に自己学習に依存する現在の手法には有害である。
我々は,不確実な擬似ラベルがモデルに誤解をもたらすのを防ぐための,エンドツーエンドのフレームワークであるCredible Teacherを提案する。
論文 参考訳(メタデータ) (2024-01-01T08:19:21Z) - Mitigating Label Bias in Machine Learning: Fairness through Confident
Learning [22.031325797588476]
偏見のないラベルが潜在的なバイアスを持つエージェントによって上書きされると、識別が生じることがある。
本稿では,自信ある学習の枠組みの中で,最も公平なインスタンスをフィルタリングすることで,バイアスを排除できることを実証する。
論文 参考訳(メタデータ) (2023-12-14T08:55:38Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Mitigating Label Bias via Decoupled Confident Learning [14.001915875687862]
アルゴリズムの公平性に関する懸念が高まり、アルゴリズムのバイアスを軽減する手法が急増した。
ラベルのバイアスは、医療、雇用、コンテンツモデレーションを含む重要な領域に広まっています。
本稿では,ラベルバイアスを緩和するためのプルーニング手法,Decoupled Confident Learning (DeCoLe)を提案する。
論文 参考訳(メタデータ) (2023-07-18T03:28:03Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Automated Detection of Label Errors in Semantic Segmentation Datasets via Deep Learning and Uncertainty Quantification [5.279257531335345]
ピクセルワイドラベルを用いたセマンティックセグメンテーションデータセットにおけるラベル誤り検出手法を初めて提案する。
提案手法では,誤検出回数を制御しながら,ラベルエラーの大部分を検出することができる。
論文 参考訳(メタデータ) (2022-07-13T10:25:23Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。