論文の概要: Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection
- arxiv url: http://arxiv.org/abs/2305.10204v1
- Date: Wed, 17 May 2023 13:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:48:12.303176
- Title: Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection
- Title(参考訳): シールド表現:反復的勾配ベース投影による感性属性の保護
- Authors: Shadi Iskander, Kira Radinsky, Yonatan Belinkov
- Abstract要約: イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 39.16319169760823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing models tend to learn and encode social biases
present in the data. One popular approach for addressing such biases is to
eliminate encoded information from the model's representations. However,
current methods are restricted to removing only linearly encoded information.
In this work, we propose Iterative Gradient-Based Projection (IGBP), a novel
method for removing non-linear encoded concepts from neural representations.
Our method consists of iteratively training neural classifiers to predict a
particular attribute we seek to eliminate, followed by a projection of the
representation on a hypersurface, such that the classifiers become oblivious to
the target attribute. We evaluate the effectiveness of our method on the task
of removing gender and race information as sensitive attributes. Our results
demonstrate that IGBP is effective in mitigating bias through intrinsic and
extrinsic evaluations, with minimal impact on downstream task accuracy.
- Abstract(参考訳): 自然言語処理モデルは、データに存在する社会的バイアスを学習し、エンコードする傾向がある。
このようなバイアスに対処するための一般的なアプローチは、モデルの表現から符号化された情報を排除することである。
しかし、現在の方法は線形符号化された情報のみを削除することに制限されている。
本研究では,ニューラル表現から非線形符号化概念を除去する新しい手法であるIGBP(Iterative Gradient-Based Projection)を提案する。
提案手法は, ニューラル分類器を反復的に訓練して, 排除しようとする特定の属性を予測し, 続いて超曲面上の表現の投影を行い, 対象属性に無関心になるようにした。
我々は,性別や人種情報の削除作業における手法の有効性を,センシティブな属性として評価した。
以上の結果から, IGBPは本態性および外因性評価によるバイアス軽減に有効であり, 下流タスク精度への影響は最小限であった。
関連論文リスト
- TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes [4.2560452339165895]
Targeted Concept Erasure (TaCo)は、最後の潜伏表現から機密情報を除去する新しいアプローチである。
実験の結果,TaCoは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-11T16:22:37Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Pixel-wise Gradient Uncertainty for Convolutional Neural Networks
applied to Out-of-Distribution Segmentation [0.43512163406552007]
本稿では,推定時に効率よく計算できる画素単位の損失勾配から不確実点を求める手法を提案する。
本実験は,提案手法が誤った画素分類を識別し,無視可能な計算オーバーヘッドで予測品質を推定する能力を示す。
論文 参考訳(メタデータ) (2023-03-13T08:37:59Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Fairness via Representation Neutralization [60.90373932844308]
フェアネスのための表現中立化(Representation Neutralization for Fairness, RNF)という新たな緩和手法を提案する。
RNFは、DNNモデルのタスク固有の分類ヘッダのみをデバイアスすることで、その公平性を達成する。
複数のベンチマークデータセットに対する実験結果は、DNNモデルの識別を効果的に削減するRNFフレームワークを実証している。
論文 参考訳(メタデータ) (2021-06-23T22:26:29Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。