論文の概要: The influence of missing data mechanisms and simple missing data handling techniques on fairness
- arxiv url: http://arxiv.org/abs/2503.07313v1
- Date: Mon, 10 Mar 2025 13:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:07.069853
- Title: The influence of missing data mechanisms and simple missing data handling techniques on fairness
- Title(参考訳): 欠落データ機構と簡易欠落データ処理技術が公正性に及ぼす影響
- Authors: Aeysha Bhatti, Trudie Sandrock, Johane Nienkemper-Swanepoel,
- Abstract要約: 不足値とその処理がアルゴリズムの公平性に与える影響について検討する。
この研究の出発点は、欠落のメカニズムであり、欠落したデータの処理方法に繋がる。
その結果、あるシナリオでは、不一致のメカニズムがランダムに欠如している場合、公平性への影響が明らかになる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Fairness of machine learning algorithms is receiving increasing attention, as such algorithms permeate the day-to-day aspects of our lives. One way in which bias can manifest in a dataset is through missing values. If data are missing, these data are often assumed to be missing completely randomly; in reality the propensity of data being missing is often tied to the demographic characteristics of individuals. There is limited research into how missing values and the handling thereof can impact the fairness of an algorithm. Most researchers either apply listwise deletion or tend to use the simpler methods of imputation (e.g. mean or mode) compared to the more advanced ones (e.g. multiple imputation); we therefore study the impact of the simpler methods on the fairness of algorithms. The starting point of the study is the mechanism of missingness, leading into how the missing data are processed and finally how this impacts fairness. Three popular datasets in the field of fairness are amputed in a simulation study. The results show that under certain scenarios the impact on fairness can be pronounced when the missingness mechanism is missing at random. Furthermore, elementary missing data handling techniques like listwise deletion and mode imputation can lead to higher fairness compared to more complex imputation methods like k-nearest neighbour imputation, albeit often at the cost of lower accuracy.
- Abstract(参考訳): 機械学習アルゴリズムの公正さは、私たちの生活の日々の側面に浸透しているため、注目を集めている。
データセットにバイアスが現れる方法の1つは、欠落した値である。
データが欠落している場合、これらのデータが完全にランダムに欠落していると仮定されることが多く、実際には、欠落しているデータの正当性は個人の人口統計学的特徴と結びついていることが多い。
不足した値とその処理がアルゴリズムの公平性に与える影響について、限定的な研究がなされている。
ほとんどの研究者はリストワイズ削除を施すか、より高度なもの(例えば多重計算)と比較して単純な計算法(例えば平均やモード)を使う傾向がある。
この研究の出発点は、欠落のメカニズムであり、失ったデータがどのように処理され、最終的にそれが公正にどのように影響するかに繋がる。
フェアネス分野における3つの一般的なデータセットは、シミュレーション研究で増幅されている。
その結果、あるシナリオでは、不一致のメカニズムがランダムに欠如している場合、公平性への影響が明らかになる。
さらに、リストワイズ削除やモード計算のような基本的な欠落したデータ処理技術は、k-アネレスト近傍計算のようなより複雑な計算手法に比べて、より精度の低いコストで高い公平性をもたらす可能性がある。
関連論文リスト
- Adapting Fairness Interventions to Missing Values [4.820576346277399]
実世界のデータにおける値の欠落は、アルゴリズムの公正性に顕著でユニークな課題をもたらす。
最初のデータがインプットされ、次に、そのインプットされたデータが分類に使用されるような、欠落した値を扱うための標準的な手順は、識別を悪化させる。
我々は,値の欠落を伴う公平な分類のためのスケーラブルで適応的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-30T21:50:48Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Impact Of Missing Data Imputation On The Fairness And Accuracy Of Graph
Node Classifiers [0.19573380763700707]
グラフデータ(ノード属性)インプットの文脈における公平性への影響を,埋め込みとニューラルネットワークの異なる手法を用いて解析する。
この結果から,グラフデータの公平性や,グラフの欠落を効率的に処理する方法について,貴重な知見が得られる。
論文 参考訳(メタデータ) (2022-11-01T23:16:36Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Fairness in Missing Data Imputation [2.3605348648054463]
我々は、欠落したデータ計算の公正性に関する最初の既知の研究を行う。
一般に使用されている3つのデータセットにおけるインパルス化手法の性能について検討することにより、欠落した値のインパルス化の不公平さが広く存在することを示す。
以上の結果から,実際に関連する要因を慎重に調査することで,不当なデータ計算による不公平を軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-22T18:29:17Z) - Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values [4.973456986972679]
欠落した値を持つデータを用いて機械学習モデルを訓練する際の公平性の懸念について検討する。
本稿では,個別の計算処理や学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
提案手法は,有意なデータセットに適用した既存のフェアネス介入手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T20:46:22Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。