論文の概要: The Birth of Bias: A case study on the evolution of gender bias in an
English language model
- arxiv url: http://arxiv.org/abs/2207.10245v1
- Date: Thu, 21 Jul 2022 00:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:21:09.488653
- Title: The Birth of Bias: A case study on the evolution of gender bias in an
English language model
- Title(参考訳): バイアスの誕生--英語モデルにおけるジェンダーバイアスの進化を事例として
- Authors: Oskar van der Wal, Jaap Jumelet, Katrin Schulz, Willem Zuidema
- Abstract要約: 私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
- 参考スコア(独自算出の注目度): 1.6344851071810076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting and mitigating harmful biases in modern language models are widely
recognized as crucial, open problems. In this paper, we take a step back and
investigate how language models come to be biased in the first place. We use a
relatively small language model, using the LSTM architecture trained on an
English Wikipedia corpus. With full access to the data and to the model
parameters as they change during every step while training, we can map in
detail how the representation of gender develops, what patterns in the dataset
drive this, and how the model's internal state relates to the bias in a
downstream task (semantic textual similarity). We find that the representation
of gender is dynamic and identify different phases during training.
Furthermore, we show that gender information is represented increasingly
locally in the input embeddings of the model and that, as a consequence,
debiasing these can be effective in reducing the downstream bias. Monitoring
the training dynamics, allows us to detect an asymmetry in how the female and
male gender are represented in the input embeddings. This is important, as it
may cause naive mitigation strategies to introduce new undesirable biases. We
discuss the relevance of the findings for mitigation strategies more generally
and the prospects of generalizing our methods to larger language models, the
Transformer architecture, other languages and other undesirable biases.
- Abstract(参考訳): 現代の言語モデルにおける有害バイアスの検出と緩和は、重要でオープンな問題として広く認識されている。
本稿では,まず第一に,言語モデルがどのようなバイアスを受けるかを検討する。
我々は、英語のウィキペディアコーパスで訓練されたLSTMアーキテクチャを用いて、比較的小さな言語モデルを使用する。
トレーニング中のステップ毎にデータにアクセスし、モデルパラメータが変化すると、性別の表現がどのように発達するか、データセットのパターンがこれを駆動するか、モデルの内部状態が下流タスクのバイアスとどのように関連しているかを詳細にマッピングすることができる(semantic textual similarity)。
性別の表現は動的であり,訓練中に異なる段階を識別できることがわかった。
さらに,モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されるようになり,結果として,これらを嫌悪することが,下流バイアスの低減に有効であることを示す。
トレーニングダイナミクスの監視により、入力埋め込みで女性と男性の性別がどう表現されているかの非対称性を検出できます。
これは、ナイーブな緩和戦略が新しい望ましくないバイアスをもたらす可能性があるため、重要である。
より一般的な緩和戦略の発見と、我々の手法をより大きな言語モデル、トランスフォーマーアーキテクチャ、他の言語、その他の望ましくないバイアスに一般化する可能性について論じる。
関連論文リスト
- Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT [4.807994469764776]
モデルスケールと事前学習データが学習した社会バイアスに与える影響について検討する。
実験の結果,事前学習したデータは,モデルスケールで上流バイアスがどのように進化するかに大きな影響を及ぼすことがわかった。
データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査しました。
論文 参考訳(メタデータ) (2024-07-25T23:09:33Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Exploring Gender Bias in Retrieval Models [2.594412743115663]
情報検索におけるジェンダーバイアスの緩和は,ステレオタイプの普及を避けるために重要である。
本研究では,(1)クエリに対するドキュメントの関連性,(2)ドキュメントの“ジェンダー”という2つのコンポーネントからなるデータセットを用いる。
我々は,大容量のBERTエンコーダの完全微調整を行う場合,IRの事前学習モデルはゼロショット検索タスクではうまく動作しないことを示す。
また、事前学習されたモデルには性別バイアスがあり、検索された記事は女性よりも男性が多い傾向にあることを示した。
論文 参考訳(メタデータ) (2022-08-02T21:12:05Z) - Examining Covert Gender Bias: A Case Study in Turkish and English
Machine Translation Models [7.648784748888186]
我々は,機械翻訳モデルにおいて,過剰性差と隠蔽性バイアスの両方の症例について検討した。
具体的には、非対称性マーキングを調査する手法を提案する。
また、人格の属性の偏りを評価し、職業的・人格的ステレオタイプについて検討する。
論文 参考訳(メタデータ) (2021-08-23T19:25:56Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。