論文の概要: Assessing gender bias in medical and scientific masked language models
with StereoSet
- arxiv url: http://arxiv.org/abs/2111.08088v1
- Date: Mon, 15 Nov 2021 21:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 06:07:42.221277
- Title: Assessing gender bias in medical and scientific masked language models
with StereoSet
- Title(参考訳): StereoSetを用いた医学・科学マスキング言語モデルにおける性別バイアスの評価
- Authors: Robert Robinson
- Abstract要約: BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用システムである。
職業、人種、宗教のパフォーマンスは、一般目的の全体的な偏見スコアと類似していた。
医学では,SciBERT以外の一般目的よりも,すべてのカテゴリーに偏りが認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP systems use language models such as Masked Language Models (MLMs) that
are pre-trained on large quantities of text such as Wikipedia create
representations of language. BERT is a powerful and flexible general-purpose
MLM system developed using unlabeled text. Pre-training on large quantities of
text also has the potential to transparently embed the cultural and social
biases found in the source text into the MLM system. This study aims to compare
biases in general purpose and medical MLMs with the StereoSet bias assessment
tool. The general purpose MLMs showed significant bias overall, with BERT
scoring 57 and RoBERTa scoring 61. The category of gender bias is where the
best performances were found, with 63 for BERT and 73 for RoBERTa. Performances
for profession, race, and religion were similar to the overall bias scores for
the general-purpose MLMs.Medical MLMs showed more bias in all categories than
the general-purpose MLMs except for SciBERT, which showed a race bias score of
55, which was superior to the race bias score of 53 for BERT. More gender
(Medical 54-58 vs. General 63-73) and religious (46-54 vs. 58) biases were
found with medical MLMs. This evaluation of four medical MLMs for stereotyped
assessments about race, gender, religion, and profession showed inferior
performance to general-purpose MLMs. These medically focused MLMs differ
considerably in training source data, which is likely the root cause of the
differences in ratings for stereotyped biases from the StereoSet tool.
- Abstract(参考訳): NLPシステムは、マスキード言語モデル(MLM)のような言語モデルを使用し、ウィキペディアのような大量のテキストで事前訓練された言語表現を生成する。
BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用MLMシステムである。
大量のテキストの事前学習は、ソーステキストに見られる文化的・社会的バイアスをMLMシステムに透過的に埋め込む可能性がある。
本研究の目的は,一般目的のバイアスと医療用mlmとステレオセットバイアスアセスメントツールの比較である。
汎用mlmsは全体的なバイアスが大きく, バートは57点, ロバータは61点であった。
性別バイアスのカテゴリーは最高の成績がみられた場所であり、BERTは63、RoBERTaは73であった。
医学的なmlmsは、scibertを除いて、すべてのカテゴリーにおいて、汎用mlmよりも多くのバイアスを示し、bertのレースバイアススコア53よりも優れた55のレースバイアススコアを示した。
性差(医学54-58 vs. 一般63-73)と宗教46-54 vs. 58)は医療用MLMで認められた。
人種,性別,宗教,職業に関するステレオタイプ評価のための4つの医療用MLMの評価は,汎用MLMに劣る性能を示した。
これらの医学的な焦点を絞ったMLMは、トレーニングソースデータにおいてかなり異なるため、ステレオタイプバイアスのステレオタイプによる評価の違いの根本原因はおそらくStereoSetツールにある。
関連論文リスト
- Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Bias of AI-Generated Content: An Examination of News Produced by Large
Language Models [3.5884802399088516]
大規模言語モデル(LLM)は、AIGC(AI-Generated Content)として知られる、私たちの生活を変革し、彼らが生成するコンテンツを通じて機能する可能性を持っている。
本稿では,ChatGPT や LLaMA を含む 7 つの代表的な LLM が生成する AIGC のバイアスについて検討する。
論文 参考訳(メタデータ) (2023-09-18T14:47:24Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Constructing Holistic Measures for Social Biases in Masked Language
Models [17.45153670825904]
Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
現実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだことから、インスパイアされる可能性が高い。
Kullback Leiblergence Score (KLDivS) とJensen Shannon Divergence Score (JSDivS) の2つの評価指標を提案し,社会バイアスの評価を行った。
論文 参考訳(メタデータ) (2023-05-12T23:09:06Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z) - Gender Bias in Masked Language Models for Multiple Languages [31.528949172210233]
本稿では,英語属性単語リストと並列コーパスのみを用いて,様々な言語のバイアス評価を行うため,バイアス評価スコア(MBE)を提案する。
MBEを用いて8言語における偏見を評価し, 性別関連偏見がすべての言語に対して属性語にエンコードされていることを確認した。
論文 参考訳(メタデータ) (2022-05-01T20:19:14Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。