論文の概要: From Biased Selective Labels to Pseudo-Labels: An Expectation-Maximization Framework for Learning from Biased Decisions
- arxiv url: http://arxiv.org/abs/2406.18865v1
- Date: Thu, 27 Jun 2024 03:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.536119
- Title: From Biased Selective Labels to Pseudo-Labels: An Expectation-Maximization Framework for Learning from Biased Decisions
- Title(参考訳): Biased Selective Labels から Pseudo-Labels へ: Biased Decisions から学ぶための期待最大化フレームワーク
- Authors: Trenton Chang, Jenna Wiens,
- Abstract要約: 異種検閲という,臨床に着想を得た選択的ラベル問題について検討した。
Disparate Censorship expectation-Maximization (DCEM)は、このような検閲の存在下で学習するためのアルゴリズムである。
- 参考スコア(独自算出の注目度): 9.440055827786596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective labels occur when label observations are subject to a decision-making process; e.g., diagnoses that depend on the administration of laboratory tests. We study a clinically-inspired selective label problem called disparate censorship, where labeling biases vary across subgroups and unlabeled individuals are imputed as "negative" (i.e., no diagnostic test = no illness). Machine learning models naively trained on such labels could amplify labeling bias. Inspired by causal models of selective labels, we propose Disparate Censorship Expectation-Maximization (DCEM), an algorithm for learning in the presence of disparate censorship. We theoretically analyze how DCEM mitigates the effects of disparate censorship on model performance. We validate DCEM on synthetic data, showing that it improves bias mitigation (area between ROC curves) without sacrificing discriminative performance (AUC) compared to baselines. We achieve similar results in a sepsis classification task using clinical data.
- Abstract(参考訳): 選択ラベルは、ラベルの観察が意思決定プロセスの対象となるときに発生する。
異種検閲(disparate censorship)と呼ばれる,臨床に着想を得た選択的ラベル問題について検討した。
このようなラベルで中立的にトレーニングされた機械学習モデルは、ラベル付けバイアスを増幅する可能性がある。
選択ラベルの因果モデルに着想を得て,異なる検閲が存在する場合の学習アルゴリズムであるDCEM(Disparate Censorship expectation-Maximization)を提案する。
我々は,DCEMがモデル性能に与える影響を理論的に分析する。
合成データを用いてDCEMを検証することにより, 判別性能(AUC)をベースラインと比較して犠牲にすることなく, バイアス緩和(ROC曲線間の領域)を改善することを示す。
臨床データを用いた敗血症分類課題において同様の結果が得られた。
関連論文リスト
- Label Set Optimization via Activation Distribution Kurtosis for Zero-shot Classification with Generative Models [10.699636123243138]
In-context Learning (ICL) のパフォーマンスは、迅速な設計に敏感だが、ゼロショット分類におけるクラスラベルオプションの影響は概ね見過ごされている。
本研究は,ラベルオプションがゼロショットICL分類性能にどのように影響するかを総合的に調査した最初の事例である。
論文 参考訳(メタデータ) (2024-10-24T22:59:23Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Disparate Censorship & Undertesting: A Source of Label Bias in Clinical
Machine Learning [14.133370438685969]
同等のリスクを持つ患者に対する異なる検閲は、特定のグループで過小評価され、その結果、そのようなグループに対するより偏見のあるラベルとなる。
本研究は,臨床MLモデルにおけるラベルバイアスの源泉として,異なる検閲への注意を呼び起こす。
論文 参考訳(メタデータ) (2022-08-01T20:15:31Z) - Instance-Dependent Partial Label Learning [69.49681837908511]
部分ラベル学習は、典型的には弱教師付き学習問題である。
既存のほとんどのアプローチでは、トレーニングサンプルの間違ったラベルがランダムに候補ラベルとして選択されていると仮定している。
本稿では,各例が実数で構成された潜在ラベル分布と関連していると仮定する。
論文 参考訳(メタデータ) (2021-10-25T12:50:26Z) - Active label cleaning: Improving dataset quality under resource
constraints [13.716577886649018]
ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害である。
この研究は、再アノテーションのためのサンプルを優先順位付けするためのデータ駆動アプローチを提唱する。
評価されたラベルの正しさと各サンプルのラベル付け難易度に応じて格付けを行い,再現性を評価するためのシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2021-09-01T19:03:57Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。