論文の概要: Explainability for fair machine learning
- arxiv url: http://arxiv.org/abs/2010.07389v1
- Date: Wed, 14 Oct 2020 20:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:27:09.068880
- Title: Explainability for fair machine learning
- Title(参考訳): 公平な機械学習のための説明可能性
- Authors: Tom Begley, Tobias Schwedes, Christopher Frye, Ilya Feige
- Abstract要約: 本稿では,Shapley値のパラダイムに基づく機械学習における公平性を説明するための新しいアプローチを提案する。
我々の公正な説明は、モデルがセンシティブな属性を直接操作していない場合であっても、モデル全体の不公平さを個々の入力特徴に帰着する。
本稿では,既存のトレーニング時間フェアネス介入を適用したメタアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.227479910430866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the decisions made or influenced by machine learning models increasingly
impact our lives, it is crucial to detect, understand, and mitigate unfairness.
But even simply determining what "unfairness" should mean in a given context is
non-trivial: there are many competing definitions, and choosing between them
often requires a deep understanding of the underlying task. It is thus tempting
to use model explainability to gain insights into model fairness, however
existing explainability tools do not reliably indicate whether a model is
indeed fair. In this work we present a new approach to explaining fairness in
machine learning, based on the Shapley value paradigm. Our fairness
explanations attribute a model's overall unfairness to individual input
features, even in cases where the model does not operate on sensitive
attributes directly. Moreover, motivated by the linearity of Shapley
explainability, we propose a meta algorithm for applying existing training-time
fairness interventions, wherein one trains a perturbation to the original
model, rather than a new model entirely. By explaining the original model, the
perturbation, and the fair-corrected model, we gain insight into the
accuracy-fairness trade-off that is being made by the intervention. We further
show that this meta algorithm enjoys both flexibility and stability benefits
with no loss in performance.
- Abstract(参考訳): 機械学習モデルによる決定や影響が私たちの生活にますます影響を与えているため、不公平を検出し、理解し、軽減することが重要です。
しかし、与えられた文脈で「不公平」がどんな意味を持つべきかを単に決定することさえ簡単ではない:多くの競合する定義があり、それらを選択するには、基礎となるタスクの深い理解が必要である。
したがって、モデルフェアネスに関する洞察を得るためにモデル説明可能性を使う傾向がありますが、既存の説明可能性ツールは、モデルが本当にフェアかどうかを確実に示していません。
本稿では、Shapley値のパラダイムに基づく機械学習における公平性を説明する新しいアプローチを提案する。
我々の公正な説明は、モデルがセンシティブな属性を直接操作していない場合であっても、モデル全体の不公平さを個々の入力特徴に帰着する。
さらに,Shapleyの説明可能性の線形性によって動機づけられたメタアルゴリズムを提案し,既存のトレーニング時間フェアネス介入を適用し,新しいモデルではなく,オリジナルのモデルに摂動を訓練する。
元のモデル、摂動、公正補正モデルを説明することで、介入によって行われている正確性と公正性のトレードオフについて洞察を得る。
さらに, このメタアルゴリズムは, 柔軟性と安定性を両立し, 性能の低下を伴わないことを示す。
関連論文リスト
- Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Achieving Counterfactual Fairness with Imperfect Structural Causal Model [11.108866104714627]
対実フェアネスのためのミニマックスゲーム理論モデルを提案する。
また,提案したミニマックスモデルの誤差境界を理論的に証明する。
複数の実世界のデータセットに関する実証実験は、正確性と公正性の両方において、私たちの優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-03-26T09:37:29Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Leave-one-out Unfairness [17.221751674951562]
これは、モデルのトレーニングデータに1人の人物が含まれたり排除されたりすることで、モデルの個人に対する予測がどれほど変化するかを特徴付ける。
一般化誤差が小さい場合を含め、実データ上でディープモデルがどのように不公平に振る舞うかを特徴付ける。
脱却不公平によって負の影響を受ける可能性のある健全な実践的応用について論じる。
論文 参考訳(メタデータ) (2021-07-21T15:55:49Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Biased Models Have Biased Explanations [10.9397029555303]
機械学習モデルで生成された属性に基づく説明のレンズを通して、機械学習(FairML)の公平性を検討します。
まず、群フェアネスの既存の統計的概念を翻訳し、モデルから与えられた説明の観点からこれらの概念を定義する。
そこで本研究では,ブラックボックスモデルに対する新しい(不公平な)検出方法を提案する。
論文 参考訳(メタデータ) (2020-12-20T18:09:45Z) - FairALM: Augmented Lagrangian Method for Training Fair Models with
Little Regret [42.66567001275493]
現在、我々がモデルに提示するデータセットのバイアスのため、公正な公開トレーニングが不公平なモデルにつながることは受け入れられている。
そこで本研究では,モデルのトレーニング中に公平性を同時に課すメカニズムについて検討する。
論文 参考訳(メタデータ) (2020-04-03T03:18:53Z) - Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。
逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。
合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文 参考訳(メタデータ) (2020-03-11T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。