論文の概要: Gender Encoding Patterns in Pretrained Language Model Representations
- arxiv url: http://arxiv.org/abs/2503.06734v1
- Date: Sun, 09 Mar 2025 19:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:29.732895
- Title: Gender Encoding Patterns in Pretrained Language Model Representations
- Title(参考訳): 事前学習言語モデル表現におけるジェンダーエンコーディングパターン
- Authors: Mahdi Zakizadeh, Mohammad Taher Pilehvar,
- Abstract要約: プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
- 参考スコア(独自算出の注目度): 17.101242741559428
- License:
- Abstract: Gender bias in pretrained language models (PLMs) poses significant social and ethical challenges. Despite growing awareness, there is a lack of comprehensive investigation into how different models internally represent and propagate such biases. This study adopts an information-theoretic approach to analyze how gender biases are encoded within various encoder-based architectures. We focus on three key aspects: identifying how models encode gender information and biases, examining the impact of bias mitigation techniques and fine-tuning on the encoded biases and their effectiveness, and exploring how model design differences influence the encoding of biases. Through rigorous and systematic investigation, our findings reveal a consistent pattern of gender encoding across diverse models. Surprisingly, debiasing techniques often exhibit limited efficacy, sometimes inadvertently increasing the encoded bias in internal representations while reducing bias in model output distributions. This highlights a disconnect between mitigating bias in output distributions and addressing its internal representations. This work provides valuable guidance for advancing bias mitigation strategies and fostering the development of more equitable language models.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
認知度が高まるにもかかわらず、異なるモデルが内部的にどのようにバイアスを表現し、伝播するかに関する包括的な調査が欠如している。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
モデルがジェンダー情報とバイアスをエンコードする方法、バイアス緩和技術の影響を調べ、その効果を微調整すること、モデル設計の違いがバイアスのエンコードにどのように影響するかを検討する。
本研究は厳密で体系的な調査を通じて,多様なモデルにまたがるジェンダーエンコーディングの一貫したパターンを明らかにする。
驚くべきことに、デバイアス技術は、しばしば限られた有効性を示し、時には内部表現における符号化バイアスを必然的に増加させながら、モデル出力分布におけるバイアスを減少させる。
これは出力分布の緩和バイアスと内部表現への対処の間の断絶を強調している。
この研究は、バイアス緩和戦略を推進し、より公平な言語モデルの開発を促進するための貴重なガイダンスを提供する。
関連論文リスト
- Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [17.101242741559428]
本稿では,言語モデルの固有バイアス緩和と測定戦略に焦点を当てる。
我々は、本質的な測定を深く掘り下げ、矛盾を識別し、これらのベンチマークがジェンダーステレオタイプの違いを反映している可能性を示唆している。
本研究は, 言語モデルにおけるジェンダーステレオタイピングの複雑さと, 偏見の検出・低減のための, より洗練された手法を開発するための新たな方向性を指摘するものである。
論文 参考訳(メタデータ) (2025-01-02T09:40:31Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z) - Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias [45.956112337250275]
本稿では, 因果媒介分析の理論に基づく手法を提案し, モデルのどの部分が因果関係に関係しているかを解釈する。
本研究では,事前学習したトランスフォーマー言語モデルにおける性別バイアスの分析に本手法を適用した。
媒介分析の結果,性別バイアス効果は (i) ネットワークのごく一部に集中しており, (ii) 相乗的, 増幅的, あるいは抑圧的であり, (iii) 入力から直接的に, 仲介者を通して間接的に流れる効果に分解可能であることがわかった。
論文 参考訳(メタデータ) (2020-04-26T01:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。