論文の概要: Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models
- arxiv url: http://arxiv.org/abs/2404.04814v1
- Date: Sun, 7 Apr 2024 05:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.112320
- Title: Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models
- Title(参考訳): 推論時ルール消去器: 展開モデルにおけるバイアス軽減のためのバイアスルールの蒸留と除去
- Authors: Yi Zhang, Jitao Sang,
- Abstract要約: よりフレキシブルな公平性パラダイム,推論時ルール消去,あるいは単に消去を提案する。
まず,不公平なルールに関連付けられた対数値の減算により,バイアスルールを消去するためにモデル出力を変更する可能性を確認し,推論時間ルール消去器を推定した。
本稿では,(1) 制限されたクエリが, 到達不能な重み付きモデル上で実行され, バイアス付きルールを追加のパッチ付きモデルに抽出し, (2) 推論時間の間に既にパッチ付きモデルに蒸留されているバイアス付きルールは, 元のモデルの出力から除外される,という2つの段階を含むルール消去器の実装について述べる。
- 参考スコア(独自算出の注目度): 17.789203548750823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fairness is critical for artificial intelligence systems, especially for those deployed in high-stakes applications such as hiring and justice. Existing efforts toward fairness in machine learning fairness require retraining or fine-tuning the neural network weights to meet the fairness criteria. However, this is often not feasible in practice for regular model users due to the inability to access and modify model weights. In this paper, we propose a more flexible fairness paradigm, Inference-Time Rule Eraser, or simply Eraser, which considers the case where model weights can not be accessed and tackles fairness issues from the perspective of biased rules removal at inference-time. We first verified the feasibility of modifying the model output to wipe the biased rule through Bayesian analysis, and deduced Inference-Time Rule Eraser via subtracting the logarithmic value associated with unfair rules (i.e., the model's response to biased features) from the model's logits output as a means of removing biased rules. Moreover, we present a specific implementation of Rule Eraser that involves two stages: (1) limited queries are performed on the model with inaccessible weights to distill its biased rules into an additional patched model, and (2) during inference time, the biased rules already distilled into the patched model are excluded from the output of the original model, guided by the removal strategy outlined in Rule Eraser. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed Rule Eraser in addressing fairness concerns.
- Abstract(参考訳): 公正性は、人工知能システム、特に雇用や正義のような高度な応用に配備された人々にとって重要である。
機械学習の公正性に対する既存の取り組みは、公正性基準を満たすために、ニューラルネットワークの重みを再訓練または微調整する必要がある。
しかし、モデルウェイトへのアクセスや変更ができないため、通常のモデルユーザにとって、これは現実的には実現不可能であることが多い。
本稿では,モデルウェイトにアクセスできない場合を考慮し,バイアス付きルール除去の観点から公平性問題に対処する,よりフレキシブルなフェアネスパラダイムである推論時ルール消去(Inference-Time Rule Eraser)を提案する。
まず、ベイズ分析によりモデル出力を変更してバイアスルールを消去し、不公平なルール(すなわち、バイアス付き特徴に対するモデルの応答)に関連する対数値をモデルのロジット出力から抽出することで推論時ルール消去器を推定した。
さらに,(1) バイアス付きルールを追加のパッチモデルに抽出するために,(1) アクセシブルウェイトを持つモデル上で限られたクエリを実行し,(2) 推定時間内に既にパッチ付きモデルに蒸留されているバイアス付きルールを,ルールエフェザーで概説した除去戦略で導かれる元のモデルの出力から除外する。
評価実験により, 公正性の懸念に対処する上で, 提案したルール消去器の有効性と優れた性能が示された。
関連論文リスト
- Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Fair Enough: Standardizing Evaluation and Model Selection for Fairness
Research in NLP [64.45845091719002]
現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。
本稿では,その現状を解明し,公正学習における意味ある進歩の道筋を立案することを目的とする。
論文 参考訳(メタデータ) (2023-02-11T14:54:00Z) - Fairness Reprogramming [42.65700878967251]
モデル再プログラミング手法を取り入れたFairRe Programと呼ばれる新しい汎用フェアネス学習パラダイムを提案する。
具体的には、FairRe Programはモデルを変更することができず、フェアネストリガと呼ばれる一連の摂動を入力に追加するケースについて検討している。
我々は,固定MLモデルの出力予測において,公平性トリガが効果的に人口統計バイアスを曖昧にすることができることを理論的および実証的に示す。
論文 参考訳(メタデータ) (2022-09-21T09:37:00Z) - Fair Inference for Discrete Latent Variable Models [12.558187319452657]
デュエルケアなしでデータに基づいて訓練された機械学習モデルは、特定の人口に対して不公平で差別的な行動を示すことが多い。
本研究では,変動分布に公平なペナルティを含む離散潜伏変数に対して,公平な変分推論手法を開発した。
提案手法の一般化と実世界への影響の可能性を示すため,刑事司法リスク評価のための特別目的グラフィカルモデルを構築した。
論文 参考訳(メタデータ) (2022-09-15T04:54:21Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Augmented Fairness: An Interpretable Model Augmenting Decision-Makers'
Fairness [10.53972370889201]
ブラックボックス意思決定者の予測バイアスを軽減するためのモデルに依存しない手法を提案する。
提案手法は,ブラックボックス決定器が偏りのある特徴空間において,フェールサロゲート(fair surrogate)として機能する,いくつかの短い決定規則で置き換える手法である。
論文 参考訳(メタデータ) (2020-11-17T03:25:44Z) - Do the Machine Learning Models on a Crowd Sourced Platform Exhibit Bias?
An Empirical Study on Model Fairness [7.673007415383724]
5つの異なるタスクに使用したKaggleから、40の上位モデルのベンチマークを作成しました。
これらのモデルに7つの緩和手法を適用し、公正性、緩和結果、および性能への影響を分析した。
論文 参考訳(メタデータ) (2020-05-21T23:35:53Z) - Counterfactual fairness: removing direct effects through regularization [0.0]
制御ダイレクトエフェクト(CDE)による因果関係を考慮したフェアネスの新たな定義を提案する。
我々は古典的公正度対策に取り組むための正規化を開発し、新しい公正度定義を満たす因果正則化を示す。
その結果,モデル性能を低下させることなく,予測から不公平さを軽減できることが判明した。
論文 参考訳(メタデータ) (2020-02-25T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。