論文の概要: Exploring the Linear Subspace Hypothesis in Gender Bias Mitigation
- arxiv url: http://arxiv.org/abs/2009.09435v4
- Date: Wed, 22 May 2024 14:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 22:08:17.540792
- Title: Exploring the Linear Subspace Hypothesis in Gender Bias Mitigation
- Title(参考訳): ジェンダーバイアス緩和における線形部分空間仮説の探索
- Authors: Francisco Vargas, Ryan Cotterell,
- Abstract要約: Bolukbasi et al. は、単語表現のための最初の性別バイアス緩和手法の1つである。
我々はそれらの手法を、カーネル化された非線形バージョンに一般化する。
我々は、バイアス部分空間が実際に線型であるかどうかを経験的に分析する。
- 参考スコア(独自算出の注目度): 57.292988892028134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bolukbasi et al. (2016) presents one of the first gender bias mitigation techniques for word representations. Their method takes pre-trained word representations as input and attempts to isolate a linear subspace that captures most of the gender bias in the representations. As judged by an analogical evaluation task, their method virtually eliminates gender bias in the representations. However, an implicit and untested assumption of their method is that the bias subspace is actually linear. In this work, we generalize their method to a kernelized, nonlinear version. We take inspiration from kernel principal component analysis and derive a nonlinear bias isolation technique. We discuss and overcome some of the practical drawbacks of our method for non-linear gender bias mitigation in word representations and analyze empirically whether the bias subspace is actually linear. Our analysis shows that gender bias is in fact well captured by a linear subspace, justifying the assumption of Bolukbasi et al. (2016).
- Abstract(参考訳): Bolukbasi et al (2016)は、単語表現のための最初の性別バイアス緩和手法の1つを提示している。
彼らの手法は、事前訓練された単語表現を入力とし、表現の性バイアスの大部分をキャプチャする線形部分空間を分離しようとする。
類似評価タスクによって判断されるように、その手法は表現における性別バイアスを事実上排除する。
しかし、それらの方法の暗黙的かつ未証明の仮定は、バイアス部分空間が実際線型であるということである。
本研究では,それらの手法を,カーネル化された非線形バージョンに一般化する。
カーネルの主成分分析からインスピレーションを得て、非線形バイアス分離手法を導出する。
単語表現における非線形性バイアス軽減のための手法の実際的な欠点を議論し、克服し、バイアス部分空間が実際に線形であるかどうかを実証的に分析する。
我々の分析は、性バイアスが実際に線形部分空間によってよく捉えられていることを示しており、Bolukbasi et al (2016) の仮定を正当化している。
関連論文リスト
- Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Robustness and Reliability of Gender Bias Assessment in Word Embeddings:
The Role of Base Pairs [23.574442657224008]
単語埋め込みはジェンダーバイアスを示すことが示されており、これを定量化するために様々な方法が提案されている。
これまでの研究では、男女の単語ペアを利用して偏見を測定し、偏見のある類似点を抽出してきた。
これらの性的なペアへの依存には、強い制限があることが示される。
特に、"man is to computer-grammer as woman is to homemaker"というよく知られたアナロジーは、社会的バイアスよりも言葉の類似性によるものである。
論文 参考訳(メタデータ) (2020-10-06T16:09:05Z) - MDR Cluster-Debias: A Nonlinear WordEmbedding Debiasing Pipeline [3.180013942295509]
単語埋め込みの既存の手法は、しばしば表面的には、特定の性別とステレオタイプに結びついている単語は、デバイアスされた空間で一緒にクラスタ化される。
本稿では、この残差クラスタリングがなぜ存在するのか、どのように対処されるのかを考察する。
残留バイアスが存在する2つの潜在的な理由を特定し、このバイアスを軽減するために新しいパイプラインであるMDR Cluster-Debiasを開発する。
論文 参考訳(メタデータ) (2020-06-20T20:03:07Z) - Nurse is Closer to Woman than Surgeon? Mitigating Gender-Biased
Proximities in Word Embeddings [37.65897382453336]
単語ベクターの空間配置に隠された性別バイアスを緩和することは,既存の単語埋め込みの処理方法では不可能である。
我々は,単語ベクトルに存在するバイアスを排除し,隣接するベクトルの空間分布を変化させる,新しいジェンダーデバイアス手法であるRAN-Debiasを提案する。
我々はまた、新しいバイアス評価指標、ジェンダーベースIllicit Proximity Estimate (GIPE)を提案する。
論文 参考訳(メタデータ) (2020-06-02T20:50:43Z) - Mitigating Gender Bias Amplification in Distribution by Posterior
Regularization [75.3529537096899]
本稿では,男女差の増幅問題について,分布の観点から検討する。
後続正則化に基づくバイアス緩和手法を提案する。
私たちの研究はバイアス増幅の理解に光を当てている。
論文 参考訳(メタデータ) (2020-05-13T11:07:10Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。