論文の概要: Detecting labeling bias using influence functions
- arxiv url: http://arxiv.org/abs/2602.19130v1
- Date: Sun, 22 Feb 2026 11:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.495141
- Title: Detecting labeling bias using influence functions
- Title(参考訳): 影響関数を用いたラベリングバイアスの検出
- Authors: Frida Jørgensen, Nina Weng, Siavash Bigdeli,
- Abstract要約: 影響関数はラベル付けバイアスを検出するのに使える。
サンプル評価パイプラインを開発し、まずMNISTデータセット上でテストする。
CheXpertでは、ラベルのずれたサンプルは、常に高い影響率を示す。
- 参考スコア(独自算出の注目度): 1.9276091419970947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling bias arises during data collection due to resource limitations or unconscious bias, leading to unequal label error rates across subgroups or misrepresentation of subgroup prevalence. Most fairness constraints assume training labels reflect the true distribution, rendering them ineffective when labeling bias is present; leaving a challenging question, that \textit{how can we detect such labeling bias?} In this work, we investigate whether influence functions can be used to detect labeling bias. Influence functions estimate how much each training sample affects a model's predictions by leveraging the gradient and Hessian of the loss function -- when labeling errors occur, influence functions can identify wrongly labeled samples in the training set, revealing the underlying failure mode. We develop a sample valuation pipeline and test it first on the MNIST dataset, then scaled to the more complex CheXpert medical imaging dataset. To examine label noise, we introduced controlled errors by flipping 20\% of the labels for one class in the dataset. Using a diagonal Hessian approximation, we demonstrated promising results, successfully detecting nearly 90\% of mislabeled samples in MNIST. On CheXpert, mislabeled samples consistently exhibit higher influence scores. These results highlight the potential of influence functions for identifying label errors.
- Abstract(参考訳): ラベル付けバイアスは、リソース制限や無意識のバイアスによってデータ収集中に発生し、サブグループ間でのラベルの誤り率の不平等や、サブグループの頻度の誤表現につながる。
ほとんどの公正な制約は、トレーニングラベルが真の分布を反映していると仮定し、ラベル付けバイアスが存在する場合、それらが有効でないと仮定する。
本研究は,ラベリングバイアスを検出するために影響関数を利用できるかを検討する。
影響関数は、各トレーニングサンプルが、損失関数の勾配とヘシアンを利用して、モデルの予測にどの程度影響するかを見積もる。
サンプル評価パイプラインを開発し、まずMNISTデータセット上でテストし、さらに複雑なCheXpertの医療画像データセットにスケールします。
ラベルノイズを調べるために、データセット内の1つのクラスに対してラベルの20%を反転させることにより、制御誤差を導入した。
対角 Hessian 近似を用いて有望な結果を示し,MNIST の90%近くを誤ラベルで検出した。
CheXpertでは、ラベルのずれたサンプルは、常に高い影響率を示す。
これらの結果はラベル誤りを識別する影響関数の可能性を強調した。
関連論文リスト
- Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data [18.111971239860836]
雑音ラベルの存在下での画像分類のための新しいサンプル選択法を提案する。
私たちのゴールは、正しくラベル付けされているが学習が難しいサンプルと、ラベル付けされていないサンプルを正確に区別することです。
本手法は,既存のサンプル選択手法にシームレスに統合可能なプラグイン・アンド・プレイコンポーネントとして機能する。
論文 参考訳(メタデータ) (2025-04-24T12:07:14Z) - Label Distribution Learning with Biased Annotations by Learning Multi-Label Representation [120.97262070068224]
マルチラベル学習(MLL)は,実世界のデータ表現能力に注目されている。
ラベル分布学習(LDL)は正確なラベル分布の収集において課題に直面している。
論文 参考訳(メタデータ) (2025-02-03T09:04:03Z) - From Biased Selective Labels to Pseudo-Labels: An Expectation-Maximization Framework for Learning from Biased Decisions [9.440055827786596]
異種検閲という,臨床に着想を得た選択的ラベル問題について検討した。
Disparate Censorship expectation-Maximization (DCEM)は、このような検閲の存在下で学習するためのアルゴリズムである。
論文 参考訳(メタデータ) (2024-06-27T03:33:38Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Fair Classification with Group-Dependent Label Noise [6.324366770332667]
本研究は,学習ラベルがランダムノイズで破損した環境で,公平な分類器を訓練する方法を検討する。
異種・集団依存の誤差率を考慮せずに、人口格差尺度にパリティ制約を鼻で課すことにより、その結果の精度と公平性を低下させることができることを示す。
論文 参考訳(メタデータ) (2020-10-31T22:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。