論文の概要: On the Origins of Sampling Bias: Implications on Fairness Measurement and Mitigation
- arxiv url: http://arxiv.org/abs/2503.17956v1
- Date: Sun, 23 Mar 2025 06:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:49.752667
- Title: On the Origins of Sampling Bias: Implications on Fairness Measurement and Mitigation
- Title(参考訳): サンプリングバイアスの起源について-公正度測定と緩和をめざして-
- Authors: Sami Zhioua, Ruta Binkyte, Ayoub Ouni, Farah Barika Ktata,
- Abstract要約: いくつかのバイアス源が存在し、機械学習によるバイアスは異なるグループによって等しく生まれると仮定される。
特にサンプリングバイアスは、サンプリング手順によるバイアスを記述するために文献で矛盾的に使用される。
サンプルサイズバイアス (SSB) とアンダーレ表現バイアス (URB) の明確に定義された変種を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Accurately measuring discrimination is crucial to faithfully assessing fairness of trained machine learning (ML) models. Any bias in measuring discrimination leads to either amplification or underestimation of the existing disparity. Several sources of bias exist and it is assumed that bias resulting from machine learning is born equally by different groups (e.g. females vs males, whites vs blacks, etc.). If, however, bias is born differently by different groups, it may exacerbate discrimination against specific sub-populations. Sampling bias, in particular, is inconsistently used in the literature to describe bias due to the sampling procedure. In this paper, we attempt to disambiguate this term by introducing clearly defined variants of sampling bias, namely, sample size bias (SSB) and underrepresentation bias (URB). Through an extensive set of experiments on benchmark datasets and using mainstream learning algorithms, we expose relevant observations in several model training scenarios. The observations are finally framed as actionable recommendations for practitioners.
- Abstract(参考訳): 機械学習(ML)モデルの公正性を忠実に評価するためには、正確な識別測定が不可欠である。
差別を測定する際のバイアスは、既存の格差の増幅または過小評価につながる。
いくつかのバイアス源が存在し、機械学習から生じるバイアスは異なるグループ(例えば、女性対男性、白人対黒人など)によって等しく生まれると仮定される。
しかし、異なる集団によって偏見が異なる場合、特定のサブ集団に対する差別が悪化する可能性がある。
特にサンプリングバイアスは、サンプリング手順によるバイアスを記述するために文献で矛盾的に使用される。
本稿では,サンプルサイズバイアス (SSB) とアンダーレ表現バイアス (URB) という,明確に定義されたサンプリングバイアスの変種を導入することで,この用語を曖昧にしようとする。
ベンチマークデータセットに関する広範な実験と、主流の学習アルゴリズムの使用を通じて、いくつかのモデルトレーニングシナリオで関連する観察を明らかにする。
最終的に、観察は実践者の行動可能なレコメンデーションとして扱われる。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks [3.973239756262797]
本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
論文 参考訳(メタデータ) (2024-10-14T20:08:40Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Dissecting Causal Biases [0.0]
本稿では,トレーニングデータの生成方法や収集方法に起因したバイアスのクラスに焦点を当てる。
バイアスの4つの源、すなわち、境界、選択、測定、相互作用が考慮されている。
論文 参考訳(メタデータ) (2023-10-20T09:12:10Z) - Shedding light on underrepresentation and Sampling Bias in machine
learning [0.0]
差別を分散、偏見、ノイズに分解する方法を示す。
我々は、未表現グループのサンプルを多く集めることで、識別に対処できるという、広く受け入れられている緩和アプローチに挑戦する。
論文 参考訳(メタデータ) (2023-06-08T09:34:20Z) - BLIND: Bias Removal With No Demographics [29.16221451643288]
我々は、データセットの人口統計学の事前知識のないバイアス除去手法であるBLINDを紹介する。
下流タスクでモデルをトレーニングしている間、BLINDは、メインモデルの成功を予測する補助モデルを使用してバイアス付きサンプルを検出し、トレーニングプロセス中にこれらのサンプルをダウンウェイトする。
感情分類と職業分類タスクにおける人種的および性別的偏見による実験は、BLINDがコストのかかる人口統計学的アノテーションプロセスに頼ることなく社会的偏見を緩和することを示した。
論文 参考訳(メタデータ) (2022-12-20T18:59:42Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Fairness-aware Class Imbalanced Learning [57.45784950421179]
つぶやきの感情と職業分類のロングテール学習手法を評価する。
フェアネスを強制する手法により、マージンロスに基づくアプローチを拡張します。
論文 参考訳(メタデータ) (2021-09-21T22:16:30Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。