論文の概要: Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing
- arxiv url: http://arxiv.org/abs/2212.10678v1
- Date: Tue, 20 Dec 2022 22:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:54:17.210730
- Title: Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing
- Title(参考訳): 言語モデルにおけるステレオタイプ理解:ロバストな計測とゼロショットデバイアスに向けて
- Authors: Justus Mattern, Zhijing Jin, Mrinmaya Sachan, Rada Mihalcea, Bernhard
Sch\"olkopf
- Abstract要約: 生成言語モデルで表現されるバイアスを頑健に測定する新しい枠組みを提案する。
我々は,この枠組みを用いて,GPT-3の職業性偏見を調査し,微調整を必要とせず,これらの偏見を緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 43.22485763835496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generated texts from large pretrained language models have been shown to
exhibit a variety of harmful, human-like biases about various demographics.
These findings prompted large efforts aiming to understand and measure such
effects, with the goal of providing benchmarks that can guide the development
of techniques mitigating these stereotypical associations. However, as recent
research has pointed out, the current benchmarks lack a robust experimental
setup, consequently hindering the inference of meaningful conclusions from
their evaluation metrics. In this paper, we extend these arguments and
demonstrate that existing techniques and benchmarks aiming to measure
stereotypes tend to be inaccurate and consist of a high degree of experimental
noise that severely limits the knowledge we can gain from benchmarking language
models based on them. Accordingly, we propose a new framework for robustly
measuring and quantifying biases exhibited by generative language models.
Finally, we use this framework to investigate GPT-3's occupational gender bias
and propose prompting techniques for mitigating these biases without the need
for fine-tuning.
- Abstract(参考訳): 大きな事前訓練された言語モデルから生成されたテキストは、様々な人口統計学に関する有害で人間的な偏見を示すことが示されている。
これらの知見は、これらのステレオタイプ的関連を緩和する技術開発を導くためのベンチマークを提供することを目標とし、そのような効果を理解し、測定することを目的とした大きな取り組みを引き起こした。
しかし、最近の研究で指摘されているように、現在のベンチマークには堅牢な実験的な設定がなく、その結果、評価指標から意味のある結論が推測できない。
本稿では,これらの議論を拡張し,ステレオタイプを測定するための既存の手法やベンチマークが不正確であり,それらに基づくベンチマーク言語モデルから得られる知識を著しく制限する高い実験ノイズからなることを示した。
そこで本研究では,生成言語モデルが提示するバイアスを頑健に測定し,定量化する新しい枠組みを提案する。
最後に、この枠組みを用いて、GPT-3の職業性バイアスを調査し、微調整を必要とせず、これらのバイアスを軽減する手法を提案する。
関連論文リスト
- GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and
Bias [13.928591341824248]
事前訓練された言語モデルでよく見られる性別バイアスを軽減するために、デバイアス技術が提案されている。
これらはしばしば、予測においてモデルが性中立である範囲をチェックするデータセットで評価される。
この評価プロトコルは、バイアス緩和が有意義なジェンダー知識に悪影響を及ぼす可能性を見落としている。
論文 参考訳(メタデータ) (2023-10-22T15:27:16Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - A Survey on Gender Bias in Natural Language Processing [22.91475787277623]
自然言語処理における性別バイアスに関する304論文について調査する。
ジェンダーバイアスの検出と緩和に対するコントラストアプローチの比較を行った。
性別偏見の研究は、4つの中核的な限界に悩まされている。
論文 参考訳(メタデータ) (2021-12-28T14:54:18Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。