論文の概要: Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions
- arxiv url: http://arxiv.org/abs/2306.04597v1
- Date: Wed, 7 Jun 2023 16:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:12:39.913391
- Title: Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions
- Title(参考訳): 言語モデルがジェンダーマニュフェストを獲得 - ジェンダーバイアスとFew-Shotデータ干渉の緩和
- Authors: Himanshu Thakur, Atishay Jain, Praneetha Vaddamanu, Paul Pu Liang and
Louis-Philippe Morency
- Abstract要約: 事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
- 参考スコア(独自算出の注目度): 50.67412723291881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Societal biases present in pre-trained large language models are a critical
issue as these models have been shown to propagate biases in countless
downstream applications, rendering them unfair towards specific groups of
people. Since large-scale retraining of these models from scratch is both time
and compute-expensive, a variety of approaches have been previously proposed
that de-bias a pre-trained model. While the majority of current
state-of-the-art debiasing methods focus on changes to the training regime, in
this paper, we propose data intervention strategies as a powerful yet simple
technique to reduce gender bias in pre-trained models. Specifically, we
empirically show that by fine-tuning a pre-trained model on only 10 de-biased
(intervened) training examples, the tendency to favor any gender is
significantly reduced. Since our proposed method only needs a few training
examples, our few-shot debiasing approach is highly feasible and practical.
Through extensive experimentation, we show that our debiasing technique
performs better than competitive state-of-the-art baselines with minimal loss
in language modeling ability.
- Abstract(参考訳): 事前訓練された大規模言語モデルに存在する社会的偏見は重要な問題であり、これらのモデルは無数の下流アプリケーションにおいて偏見を伝播させ、特定のグループに対して不公平である。
これらのモデルのスクラッチからの大規模な再訓練は時間的・計算的拡張性の両方のため、事前訓練されたモデルをデバイアス化する様々なアプローチが提案されている。
現状のデバイアス手法のほとんどがトレーニング体制の変化に焦点を合わせているが,本稿では,事前学習モデルにおけるジェンダーバイアスを減らすための強力かつ簡便な手法として,データ介入戦略を提案する。
具体的には,非バイアス(介入)トレーニング例10例に対して事前学習したモデルを微調整することで,任意の性別を好む傾向が著しく減少することを示す。
提案手法は,いくつかのトレーニング例のみを必要とするため,本手法は非常に実現可能かつ実用的である。
広範な実験を通じて,我々は,言語モデリング能力の低下を最小限に抑えながら,最先端のベースラインよりもデバイアス技術が優れていることを示す。
関連論文リスト
- REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - MABR: A Multilayer Adversarial Bias Removal Approach Without Prior Bias Knowledge [6.208151505901749]
実世界のデータに基づいてトレーニングされたモデルは、しばしば既存の社会的バイアスを反映し、悪化させる。
本稿では,従来のバイアス型知識とは独立して機能する,新たな対人訓練戦略を提案する。
本手法は,人口統計学的アノテーションを必要とせずに,社会的バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-08-10T09:11:01Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Optimising Equal Opportunity Fairness in Model Training [60.0947291284978]
既存のデバイアス法、例えば、敵の訓練や、表現から保護された情報を取り除くことは、バイアスを減らすことが示されている。
2つの新たな学習目標を提案し,2つの分類課題における高い性能を維持しつつ,バイアスの低減に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-05T01:57:58Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Adversarial Examples Generation for Reducing Implicit Gender Bias in
Pre-trained Models [2.6329024988388925]
文レベルで暗黙の性別バイアスを自動生成する手法と,性別バイアスを測定する指標を提案する。
このメトリクスは、事前訓練されたモデルからサンプルの生成を導くのに使用される。そのため、これらの例は事前訓練されたモデルに対する攻撃を強制するために使用できる。
論文 参考訳(メタデータ) (2021-10-03T20:22:54Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。