論文の概要: Mitigating Gender Bias in Distilled Language Models via Counterfactual
Role Reversal
- arxiv url: http://arxiv.org/abs/2203.12574v1
- Date: Wed, 23 Mar 2022 17:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:47:39.655364
- Title: Mitigating Gender Bias in Distilled Language Models via Counterfactual
Role Reversal
- Title(参考訳): 対人的役割反転による蒸留言語モデルにおけるジェンダーバイアスの軽減
- Authors: Umang Gupta, Jwala Dhamala, Varun Kumar, Apurv Verma, Yada
Pruksachatkun, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Greg Ver
Steeg, Aram Galstyan
- Abstract要約: 言語エクセルモデルは、性中立性を持つ男女の知識を含むバイアスを受けることができる。
本稿では,複数の学習ロール設定に基づくジェンダー格差を緩和するための新しいアプローチを提案する。
男女極性言語を減少させるモデルは、公平さや下流の分類を改善しない。
- 参考スコア(独自算出の注目度): 74.52580517012832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models excel at generating coherent text, and model compression
techniques such as knowledge distillation have enabled their use in
resource-constrained settings. However, these models can be biased in multiple
ways, including the unfounded association of male and female genders with
gender-neutral professions. Therefore, knowledge distillation without any
fairness constraints may preserve or exaggerate the teacher model's biases onto
the distilled model. To this end, we present a novel approach to mitigate
gender disparity in text generation by learning a fair model during knowledge
distillation. We propose two modifications to the base knowledge distillation
based on counterfactual role reversal$\unicode{x2014}$modifying teacher
probabilities and augmenting the training set. We evaluate gender polarity
across professions in open-ended text generated from the resulting distilled
and finetuned GPT$\unicode{x2012}$2 models and demonstrate a substantial
reduction in gender disparity with only a minor compromise in utility. Finally,
we observe that language models that reduce gender polarity in language
generation do not improve embedding fairness or downstream classification
fairness.
- Abstract(参考訳): 言語モデルはコヒーレントテキストの生成に優れており、知識蒸留のようなモデル圧縮技術はリソース制約された設定での使用を可能にしている。
しかし、これらのモデルは、男女の性別と性別中立の職業の無根拠な関連を含む、複数の方法でバイアスを負うことができる。
したがって、公平性制約のない知識蒸留は、教師モデルのバイアスを蒸留モデルに保存または誇張することができる。
そこで本研究では, 知識蒸留中に公平なモデルを学習することにより, テキスト生成における男女差を緩和する新しい手法を提案する。
本稿では, 教師の確率の修正とトレーニングセットの強化により, 対実的役割逆転に基づく基本知識蒸留の2つの改良を提案する。
我々は, 蒸留および微調整されたgpt$\unicode{x2012}$2モデルから生成したオープンエンドテキストにおいて, 職業間の性極性を評価し, 実用面での小さな妥協だけで, 男女格差の実質的な低減を示す。
最後に、言語生成における性極性を低減する言語モデルは、埋め込みフェアネスや下流分類フェアネスを改善するものではないことを観察する。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and
Bias [13.928591341824248]
事前訓練された言語モデルでよく見られる性別バイアスを軽減するために、デバイアス技術が提案されている。
これらはしばしば、予測においてモデルが性中立である範囲をチェックするデータセットで評価される。
この評価プロトコルは、バイアス緩和が有意義なジェンダー知識に悪影響を及ぼす可能性を見落としている。
論文 参考訳(メタデータ) (2023-10-22T15:27:16Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Exploiting Biased Models to De-bias Text: A Gender-Fair Rewriting Model [32.21372089380992]
我々は、精巧な手作りのルールを必要とせずに、ドイツ語の書き直しモデルを訓練する。
このモデルのアウトプットは、人間の評価研究で示されているように、ジェンダーフェアネスを増加させた。
論文 参考訳(メタデータ) (2023-05-18T17:35:28Z) - Exploring Gender Bias in Retrieval Models [2.594412743115663]
情報検索におけるジェンダーバイアスの緩和は,ステレオタイプの普及を避けるために重要である。
本研究では,(1)クエリに対するドキュメントの関連性,(2)ドキュメントの“ジェンダー”という2つのコンポーネントからなるデータセットを用いる。
我々は,大容量のBERTエンコーダの完全微調整を行う場合,IRの事前学習モデルはゼロショット検索タスクではうまく動作しないことを示す。
また、事前学習されたモデルには性別バイアスがあり、検索された記事は女性よりも男性が多い傾向にあることを示した。
論文 参考訳(メタデータ) (2022-08-02T21:12:05Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - First the worst: Finding better gender translations during beam search [19.921216907778447]
文法的ジェンダー翻訳における体系的誤りによるジェンダーバイアスに着目した。
ソース文から自動的に得られる性別特徴を用いて,nbestリストのランク付け実験を行った。
これらの技術を組み合わせることで、追加のバイリンガルデータや追加のNMTモデルを必要としないWinoMT精度が大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T12:53:30Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。