論文の概要: SABAF: Removing Strong Attribute Bias from Neural Networks with
Adversarial Filtering
- arxiv url: http://arxiv.org/abs/2311.07141v1
- Date: Mon, 13 Nov 2023 08:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:14:55.899916
- Title: SABAF: Removing Strong Attribute Bias from Neural Networks with
Adversarial Filtering
- Title(参考訳): SABAF: 逆フィルタリングによるニューラルネットワークからの強い属性バイアスの除去
- Authors: Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E.
Hussein, Wael AbdAlmageed
- Abstract要約: ニューラルネットワークにおける属性バイアスを除去する新しい手法を提案する。
提案手法は,強いバイアス設定と適度なバイアス設定の両方において,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 20.7209867191915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring a neural network is not relying on protected attributes (e.g., race,
sex, age) for prediction is crucial in advancing fair and trustworthy AI. While
several promising methods for removing attribute bias in neural networks have
been proposed, their limitations remain under-explored. To that end, in this
work, we mathematically and empirically reveal the limitation of existing
attribute bias removal methods in presence of strong bias and propose a new
method that can mitigate this limitation. Specifically, we first derive a
general non-vacuous information-theoretical upper bound on the performance of
any attribute bias removal method in terms of the bias strength, revealing that
they are effective only when the inherent bias in the dataset is relatively
weak. Next, we derive a necessary condition for the existence of any method
that can remove attribute bias regardless of the bias strength. Inspired by
this condition, we then propose a new method using an adversarial objective
that directly filters out protected attributes in the input space while
maximally preserving all other attributes, without requiring any specific
target label. The proposed method achieves state-of-the-art performance in both
strong and moderate bias settings. We provide extensive experiments on
synthetic, image, and census datasets, to verify the derived theoretical bound
and its consequences in practice, and evaluate the effectiveness of the
proposed method in removing strong attribute bias.
- Abstract(参考訳): ニューラルネットワークの保証は、公正で信頼できるAIを進める上で、予測のために保護された属性(例えば、人種、性別、年齢)に依存していない。
ニューラルネットワークにおける属性バイアスを取り除くためのいくつかの有望な方法が提案されているが、その制限は未検討のままである。
そこで本研究では,既存の属性バイアス除去法の強いバイアスの存在下での制限を数学的に実証的に明らかにし,この制限を緩和できる新しい手法を提案する。
具体的には,データセット内の固有バイアスが比較的弱い場合にのみ有効であることを示す,任意の属性バイアス除去法の性能に関する一般的な非空白な情報理論上の上限を,まず導出する。
次に、バイアス強度にかかわらず属性バイアスを除去できる任意の方法が存在するための必要条件を導出する。
この条件に触発されて、特定の目標ラベルを必要とせず、他の属性を最大限に保存しつつ、入力空間の保護された属性を直接フィルタリングする対向目的を用いた新しい手法を提案する。
提案手法は,強いバイアス設定と適度なバイアス設定の両方において,最先端の性能を実現する。
本研究では, 合成, 画像, および国勢調査データセットに関する広範な実験を行い, 導出理論境界とその実測結果の検証を行い, 強い属性バイアスを除去する手法の有効性を評価する。
関連論文リスト
- TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes [4.2560452339165895]
Targeted Concept Erasure (TaCo)は、最後の潜伏表現から機密情報を除去する新しいアプローチである。
実験の結果,TaCoは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-11T16:22:37Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Information-Theoretic Bounds on The Removal of Attribute-Specific Bias
From Neural Networks [20.7209867191915]
既存の属性バイアス除去法は,データセット固有のバイアスが比較的弱い場合にのみ有効であることを示す。
既存の属性バイアス除去法は,データセット固有のバイアスが比較的弱い場合にのみ有効であることがわかった。
論文 参考訳(メタデータ) (2023-10-08T00:39:11Z) - Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:26:57Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Mitigating Algorithmic Bias with Limited Annotations [65.060639928772]
機密属性が公開されていない場合、バイアスを軽減するために、トレーニングデータの小さな部分を手動でアノテートする必要がある。
本稿では,アルゴリズムバイアスの影響を最大限に排除するために,限定アノテーションを誘導する対話型フレームワークであるアクティブペナライゼーション・オブ・差別(APOD)を提案する。
APODは完全なアノテートバイアス緩和と同等のパフォーマンスを示しており、機密情報が制限された場合、APODが現実世界のアプリケーションに利益をもたらすことを実証している。
論文 参考訳(メタデータ) (2022-07-20T16:31:19Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Marked Attribute Bias in Natural Language Inference [0.0]
下流NLPアプリケーションにおけるジェンダーバイアスの新しい観察: 自然言語推論における有意な属性バイアスについて述べる。
下流のアプリケーションのバイアスは、トレーニングデータ、単語の埋め込み、あるいは使用中のモデルによって増幅される。
ここでは, 単語埋め込みの内在的性質が, この顕著な属性効果にどのように寄与するかを理解する。
論文 参考訳(メタデータ) (2021-09-28T20:45:02Z) - Evaluating Debiasing Techniques for Intersectional Biases [53.41549919978481]
バイアスはNLPモデルに広く浸透し、自動デバイアス技術の開発を動機付けている。
この論文では、真に公正なモデルは、単一の属性だけでなく、交叉群を構成するゲーリーマンダリング群を考慮すべきである、と論じる。
論文 参考訳(メタデータ) (2021-09-21T22:01:28Z) - Fairness via Representation Neutralization [60.90373932844308]
フェアネスのための表現中立化(Representation Neutralization for Fairness, RNF)という新たな緩和手法を提案する。
RNFは、DNNモデルのタスク固有の分類ヘッダのみをデバイアスすることで、その公平性を達成する。
複数のベンチマークデータセットに対する実験結果は、DNNモデルの識別を効果的に削減するRNFフレームワークを実証している。
論文 参考訳(メタデータ) (2021-06-23T22:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。