論文の概要: Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models
- arxiv url: http://arxiv.org/abs/2404.04814v1
- Date: Sun, 7 Apr 2024 05:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.112320
- Title: Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models
- Title(参考訳): 推論時ルール消去器: 展開モデルにおけるバイアス軽減のためのバイアスルールの蒸留と除去
- Authors: Yi Zhang, Jitao Sang,
- Abstract要約: よりフレキシブルな公平性パラダイム,推論時ルール消去,あるいは単に消去を提案する。
まず,不公平なルールに関連付けられた対数値の減算により,バイアスルールを消去するためにモデル出力を変更する可能性を確認し,推論時間ルール消去器を推定した。
本稿では,(1) 制限されたクエリが, 到達不能な重み付きモデル上で実行され, バイアス付きルールを追加のパッチ付きモデルに抽出し, (2) 推論時間の間に既にパッチ付きモデルに蒸留されているバイアス付きルールは, 元のモデルの出力から除外される,という2つの段階を含むルール消去器の実装について述べる。
- 参考スコア(独自算出の注目度): 17.789203548750823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fairness is critical for artificial intelligence systems, especially for those deployed in high-stakes applications such as hiring and justice. Existing efforts toward fairness in machine learning fairness require retraining or fine-tuning the neural network weights to meet the fairness criteria. However, this is often not feasible in practice for regular model users due to the inability to access and modify model weights. In this paper, we propose a more flexible fairness paradigm, Inference-Time Rule Eraser, or simply Eraser, which considers the case where model weights can not be accessed and tackles fairness issues from the perspective of biased rules removal at inference-time. We first verified the feasibility of modifying the model output to wipe the biased rule through Bayesian analysis, and deduced Inference-Time Rule Eraser via subtracting the logarithmic value associated with unfair rules (i.e., the model's response to biased features) from the model's logits output as a means of removing biased rules. Moreover, we present a specific implementation of Rule Eraser that involves two stages: (1) limited queries are performed on the model with inaccessible weights to distill its biased rules into an additional patched model, and (2) during inference time, the biased rules already distilled into the patched model are excluded from the output of the original model, guided by the removal strategy outlined in Rule Eraser. Exhaustive experimental evaluation demonstrates the effectiveness and superior performance of the proposed Rule Eraser in addressing fairness concerns.
- Abstract(参考訳): 公正性は、人工知能システム、特に雇用や正義のような高度な応用に配備された人々にとって重要である。
機械学習の公正性に対する既存の取り組みは、公正性基準を満たすために、ニューラルネットワークの重みを再訓練または微調整する必要がある。
しかし、モデルウェイトへのアクセスや変更ができないため、通常のモデルユーザにとって、これは現実的には実現不可能であることが多い。
本稿では,モデルウェイトにアクセスできない場合を考慮し,バイアス付きルール除去の観点から公平性問題に対処する,よりフレキシブルなフェアネスパラダイムである推論時ルール消去(Inference-Time Rule Eraser)を提案する。
まず、ベイズ分析によりモデル出力を変更してバイアスルールを消去し、不公平なルール(すなわち、バイアス付き特徴に対するモデルの応答)に関連する対数値をモデルのロジット出力から抽出することで推論時ルール消去器を推定した。
さらに,(1) バイアス付きルールを追加のパッチモデルに抽出するために,(1) アクセシブルウェイトを持つモデル上で限られたクエリを実行し,(2) 推定時間内に既にパッチ付きモデルに蒸留されているバイアス付きルールを,ルールエフェザーで概説した除去戦略で導かれる元のモデルの出力から除外する。
評価実験により, 公正性の懸念に対処する上で, 提案したルール消去器の有効性と優れた性能が示された。
関連論文リスト
- Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Fair Enough: Standardizing Evaluation and Model Selection for Fairness
Research in NLP [64.45845091719002]
現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。
本稿では,その現状を解明し,公正学習における意味ある進歩の道筋を立案することを目的とする。
論文 参考訳(メタデータ) (2023-02-11T14:54:00Z) - Fairness Reprogramming [42.65700878967251]
モデル再プログラミング手法を取り入れたFairRe Programと呼ばれる新しい汎用フェアネス学習パラダイムを提案する。
具体的には、FairRe Programはモデルを変更することができず、フェアネストリガと呼ばれる一連の摂動を入力に追加するケースについて検討している。
我々は,固定MLモデルの出力予測において,公平性トリガが効果的に人口統計バイアスを曖昧にすることができることを理論的および実証的に示す。
論文 参考訳(メタデータ) (2022-09-21T09:37:00Z) - Fair Inference for Discrete Latent Variable Models [12.558187319452657]
デュエルケアなしでデータに基づいて訓練された機械学習モデルは、特定の人口に対して不公平で差別的な行動を示すことが多い。
本研究では,変動分布に公平なペナルティを含む離散潜伏変数に対して,公平な変分推論手法を開発した。
提案手法の一般化と実世界への影響の可能性を示すため,刑事司法リスク評価のための特別目的グラフィカルモデルを構築した。
論文 参考訳(メタデータ) (2022-09-15T04:54:21Z) - Model-agnostic bias mitigation methods with regressor distribution
control for Wasserstein-based fairness metrics [0.6509758931804478]
より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。
提案手法は低次元空間において最適化を行い,コストのかかるモデル再訓練を回避する。
論文 参考訳(メタデータ) (2021-11-19T17:31:22Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Counterfactual fairness: removing direct effects through regularization [0.0]
制御ダイレクトエフェクト(CDE)による因果関係を考慮したフェアネスの新たな定義を提案する。
我々は古典的公正度対策に取り組むための正規化を開発し、新しい公正度定義を満たす因果正則化を示す。
その結果,モデル性能を低下させることなく,予測から不公平さを軽減できることが判明した。
論文 参考訳(メタデータ) (2020-02-25T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。