論文の概要: Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values
- arxiv url: http://arxiv.org/abs/2109.10431v1
- Date: Tue, 21 Sep 2021 20:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 23:43:50.581927
- Title: Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values
- Title(参考訳): インプチューションのない公正性:不一致値の公正予測のための決定木アプローチ
- Authors: Haewon Jeong, Hao Wang, Flavio P. Calmon
- Abstract要約: 欠落した値を持つデータを用いて機械学習モデルを訓練する際の公平性の懸念について検討する。
本稿では,個別の計算処理や学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
提案手法は,有意なデータセットに適用した既存のフェアネス介入手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.973456986972679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the fairness concerns of training a machine learning model
using data with missing values. Even though there are a number of fairness
intervention methods in the literature, most of them require a complete
training set as input. In practice, data can have missing values, and data
missing patterns can depend on group attributes (e.g. gender or race). Simply
applying off-the-shelf fair learning algorithms to an imputed dataset may lead
to an unfair model. In this paper, we first theoretically analyze different
sources of discrimination risks when training with an imputed dataset. Then, we
propose an integrated approach based on decision trees that does not require a
separate process of imputation and learning. Instead, we train a tree with
missing incorporated as attribute (MIA), which does not require explicit
imputation, and we optimize a fairness-regularized objective function. We
demonstrate that our approach outperforms existing fairness intervention
methods applied to an imputed dataset, through several experiments on
real-world datasets.
- Abstract(参考訳): 不足する値のデータを用いた機械学習モデルのトレーニングの公平性に関する懸念について検討する。
文献には多くの公正な介入方法があるが、そのほとんどは入力として完全なトレーニングセットを必要とする。
実際には、データは値が欠落しており、データ不足パターンはグループ属性(例えば、性別や人種)に依存します。
市販のフェアラーニングアルゴリズムをインデュートデータセットに適用するだけで、不公平なモデルになる可能性がある。
本稿では, インデュートデータセットを用いたトレーニングにおいて, 識別リスクの異なるソースを理論的に解析する。
そこで我々は,個別の計算・学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
代わりに、明示的な計算を必要としないMIA(incorporated as attribute)のない木を訓練し、公平に規則化された目的関数を最適化する。
本手法は,実世界のデータセットを複数実験した結果,既存の公平性介入手法よりも優れていることを示す。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - The Importance of Modeling Data Missingness in Algorithmic Fairness: A
Causal Perspective [14.622708494548363]
機械学習のためのトレーニングデータセットには、ある種の欠落があることが多い。
この欠如は、無視されると、モデルのデプロイ時にトレーニング手順のフェアネス保証を無効にする。
一般的な公平性アルゴリズムで使用される様々な分布が、トレーニングデータから回復できない、または回復できない条件を示します。
論文 参考訳(メタデータ) (2020-12-21T16:10:00Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。