論文の概要: Locating and Mitigating Gender Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.14409v1
- Date: Thu, 21 Mar 2024 13:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:09:01.262158
- Title: Locating and Mitigating Gender Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェンダーバイアスの配置と緩和
- Authors: Yuchen Cai, Ding Cao, Rongxi Guo, Yaqin Wen, Guiquan Liu, Enhong Chen,
- Abstract要約: 大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
- 参考スコア(独自算出の注目度): 40.78150878350479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models(LLM) are pre-trained on extensive corpora to learn facts and human cognition which contain human preferences. However, this process can inadvertently lead to these models acquiring biases and stereotypes prevalent in society. Prior research has typically tackled the issue of bias through a one-dimensional perspective, concentrating either on locating or mitigating it. This limited perspective has created obstacles in facilitating research on bias to synergistically complement and progressively build upon one another. In this study, we integrate the processes of locating and mitigating bias within a unified framework. Initially, we use causal mediation analysis to trace the causal effects of different components' activation within a large language model. Building on this, we propose the LSDM (Least Square Debias Method), a knowledge-editing based method for mitigating gender bias in occupational pronouns, and compare it against two baselines on three gender bias datasets and seven knowledge competency test datasets. The experimental results indicate that the primary contributors to gender bias are the bottom MLP modules acting on the last token of occupational pronouns and the top attention module acting on the final word in the sentence. Furthermore, LSDM mitigates gender bias in the model more effectively than the other baselines, while fully preserving the model's capabilities in all other aspects.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の嗜好を含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
しかし、このプロセスは、社会で広く見られるバイアスやステレオタイプを取得するこれらのモデルに必然的に結びつく可能性がある。
従来の研究は1次元の視点で偏見の問題に取り組み、位置決めや緩和に集中していた。
この限定的な視点は、相互に相乗的に補完し、段階的に構築するバイアスの研究を促進する上で、障害を生み出しました。
本研究では,一貫した枠組みに偏見の配置と緩和のプロセスを統合する。
当初我々は、大言語モデルにおける様々なコンポーネントの活性化の因果効果を追究するために、因果媒介分析を用いた。
そこで我々はLSDM(Least Square Debias Method)という,職業代名詞における性バイアスを緩和する知識編集手法を提案し,これを3つの性バイアスデータセットと7つの知識能力試験データセットの2つのベースラインと比較した。
実験結果から, 性別バイアスの主な寄与要因は, 職業代名詞の最後のトークンに作用する最下段のMLPモジュールと, 文の最後の単語に作用する最上段の注意モジュールであることが示唆された。
さらに、LSDMはモデル内の性バイアスを他のベースラインよりも効果的に軽減し、他のすべての側面においてモデルの能力を完全に保存する。
関連論文リスト
- The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Unveiling Gender Bias in Terms of Profession Across LLMs: Analyzing and
Addressing Sociological Implications [0.0]
この研究は、AI言語モデルにおけるジェンダーバイアスに関する既存の研究を調査し、現在の知識のギャップを特定する。
この結果は,大規模言語モデルのアウトプットに存在する,ジェンダー付き単語関連,言語使用,偏見付き物語に光を当てた。
本稿では,アルゴリズムアプローチやデータ拡張手法など,LSMにおける性別バイアスを低減するための戦略を提案する。
論文 参考訳(メタデータ) (2023-07-18T11:38:45Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Word Embeddings via Causal Inference: Gender Bias Reducing and Semantic
Information Preserving [3.114945725130788]
本稿では、因果推論の枠組みを利用して、ジェンダーバイアスを効果的に除去する手法を提案する。
総括実験により,提案手法は男女の偏りを解消する作業において,最先端の成果を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-09T19:57:22Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Evaluating Gender Bias in Natural Language Inference [5.034017602990175]
推論による自然言語理解における性別バイアスの評価手法を提案する。
チャレンジタスクを使用して、職業を用いたジェンダーステレオタイプの存在に関する最先端のNLIモデルを調査します。
その結果,mnliとsnliデータセットでトレーニングされた3モデルでは,性別による予測誤差が有意に高いことが示唆された。
論文 参考訳(メタデータ) (2021-05-12T09:41:51Z) - Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language
Models [17.90351661475405]
この研究は、テキストベースのバイアス分析手法を拡張し、マルチモーダル言語モデルを調べる。
VL-BERTが性別バイアスを示し、視覚シーンを忠実に表現するよりもステレオタイプを強化することを好むことが多いことを実証します。
論文 参考訳(メタデータ) (2021-04-18T00:02:32Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。