論文の概要: Adversarial Examples Generation for Reducing Implicit Gender Bias in
Pre-trained Models
- arxiv url: http://arxiv.org/abs/2110.01094v1
- Date: Sun, 3 Oct 2021 20:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:38:34.169106
- Title: Adversarial Examples Generation for Reducing Implicit Gender Bias in
Pre-trained Models
- Title(参考訳): 事前学習モデルにおける抑うつ性バイアス低減のための逆例生成
- Authors: Wenqian Ye, Fei Xu, Yaojia Huang, Cassie Huang, Ji A
- Abstract要約: 文レベルで暗黙の性別バイアスを自動生成する手法と,性別バイアスを測定する指標を提案する。
このメトリクスは、事前訓練されたモデルからサンプルの生成を導くのに使用される。そのため、これらの例は事前訓練されたモデルに対する攻撃を強制するために使用できる。
- 参考スコア(独自算出の注目度): 2.6329024988388925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last few years, Contextualized Pre-trained Neural Language Models,
such as BERT, GPT, have shown significant gains in various NLP tasks. To
enhance the robustness of existing pre-trained models, one way is adversarial
examples generation and evaluation for conducting data augmentation or
adversarial learning. In the meanwhile, gender bias embedded in the models
seems to be a serious problem in practical applications. Many researches have
covered the gender bias produced by word-level information(e.g.
gender-stereotypical occupations), while few researchers have investigated the
sentence-level cases and implicit cases.
In this paper, we proposed a method to automatically generate implicit gender
bias samples at sentence-level and a metric to measure gender bias. Samples
generated by our method will be evaluated in terms of accuracy. The metric will
be used to guide the generation of examples from Pre-trained models. Therefore,
those examples could be used to impose attacks on Pre-trained Models. Finally,
we discussed the evaluation efficacy of our generated examples on reducing
gender bias for future research.
- Abstract(参考訳): ここ数年、BERT、GPTなどの文脈適応型事前学習ニューラルネットワークモデルは、様々なNLPタスクにおいて顕著な増加を示している。
既存の事前学習モデルの堅牢性を高めるために、データ強化や逆学習を行うための逆例の生成と評価を行う。
一方、モデルに埋め込まれたジェンダーバイアスは、実用的なアプリケーションでは深刻な問題であるように見える。
多くの研究は、単語レベルの情報(例えば、性別のステレオタイプな職業)によって生じるジェンダーバイアスをカバーしている。
本稿では,文レベルで暗黙のジェンダーバイアスを自動生成する手法と,性別バイアスを計測する指標を提案する。
本手法で生成したサンプルは精度で評価される。
このメトリクスは、事前訓練されたモデルからサンプルの生成をガイドするために使用される。
そのため、これらの例は事前訓練されたモデルへの攻撃に使用できる。
最後に, 今後の研究におけるジェンダーバイアス低減事例の評価効果について検討した。
関連論文リスト
- DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and
Bias [13.928591341824248]
事前訓練された言語モデルでよく見られる性別バイアスを軽減するために、デバイアス技術が提案されている。
これらはしばしば、予測においてモデルが性中立である範囲をチェックするデータセットで評価される。
この評価プロトコルは、バイアス緩和が有意義なジェンダー知識に悪影響を及ぼす可能性を見落としている。
論文 参考訳(メタデータ) (2023-10-22T15:27:16Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Evaluating Gender Bias in Natural Language Inference [5.034017602990175]
推論による自然言語理解における性別バイアスの評価手法を提案する。
チャレンジタスクを使用して、職業を用いたジェンダーステレオタイプの存在に関する最先端のNLIモデルを調査します。
その結果,mnliとsnliデータセットでトレーニングされた3モデルでは,性別による予測誤差が有意に高いことが示唆された。
論文 参考訳(メタデータ) (2021-05-12T09:41:51Z) - Impact of Gender Debiased Word Embeddings in Language Modeling [0.0]
性別、人種、社会的バイアスは、自然言語処理の適用における不公平の明白な例として検出されている。
近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。
現在のアルゴリズムは、データからのバイアスを増幅することも証明されている。
論文 参考訳(メタデータ) (2021-05-03T14:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。