論文の概要: Assessing gender bias in medical and scientific masked language models
with StereoSet
- arxiv url: http://arxiv.org/abs/2111.08088v1
- Date: Mon, 15 Nov 2021 21:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 06:07:42.221277
- Title: Assessing gender bias in medical and scientific masked language models
with StereoSet
- Title(参考訳): StereoSetを用いた医学・科学マスキング言語モデルにおける性別バイアスの評価
- Authors: Robert Robinson
- Abstract要約: BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用システムである。
職業、人種、宗教のパフォーマンスは、一般目的の全体的な偏見スコアと類似していた。
医学では,SciBERT以外の一般目的よりも,すべてのカテゴリーに偏りが認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP systems use language models such as Masked Language Models (MLMs) that
are pre-trained on large quantities of text such as Wikipedia create
representations of language. BERT is a powerful and flexible general-purpose
MLM system developed using unlabeled text. Pre-training on large quantities of
text also has the potential to transparently embed the cultural and social
biases found in the source text into the MLM system. This study aims to compare
biases in general purpose and medical MLMs with the StereoSet bias assessment
tool. The general purpose MLMs showed significant bias overall, with BERT
scoring 57 and RoBERTa scoring 61. The category of gender bias is where the
best performances were found, with 63 for BERT and 73 for RoBERTa. Performances
for profession, race, and religion were similar to the overall bias scores for
the general-purpose MLMs.Medical MLMs showed more bias in all categories than
the general-purpose MLMs except for SciBERT, which showed a race bias score of
55, which was superior to the race bias score of 53 for BERT. More gender
(Medical 54-58 vs. General 63-73) and religious (46-54 vs. 58) biases were
found with medical MLMs. This evaluation of four medical MLMs for stereotyped
assessments about race, gender, religion, and profession showed inferior
performance to general-purpose MLMs. These medically focused MLMs differ
considerably in training source data, which is likely the root cause of the
differences in ratings for stereotyped biases from the StereoSet tool.
- Abstract(参考訳): NLPシステムは、マスキード言語モデル(MLM)のような言語モデルを使用し、ウィキペディアのような大量のテキストで事前訓練された言語表現を生成する。
BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用MLMシステムである。
大量のテキストの事前学習は、ソーステキストに見られる文化的・社会的バイアスをMLMシステムに透過的に埋め込む可能性がある。
本研究の目的は,一般目的のバイアスと医療用mlmとステレオセットバイアスアセスメントツールの比較である。
汎用mlmsは全体的なバイアスが大きく, バートは57点, ロバータは61点であった。
性別バイアスのカテゴリーは最高の成績がみられた場所であり、BERTは63、RoBERTaは73であった。
医学的なmlmsは、scibertを除いて、すべてのカテゴリーにおいて、汎用mlmよりも多くのバイアスを示し、bertのレースバイアススコア53よりも優れた55のレースバイアススコアを示した。
性差(医学54-58 vs. 一般63-73)と宗教46-54 vs. 58)は医療用MLMで認められた。
人種,性別,宗教,職業に関するステレオタイプ評価のための4つの医療用MLMの評価は,汎用MLMに劣る性能を示した。
これらの医学的な焦点を絞ったMLMは、トレーニングソースデータにおいてかなり異なるため、ステレオタイプバイアスのステレオタイプによる評価の違いの根本原因はおそらくStereoSetツールにある。
関連論文リスト
- A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。
東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。
解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文 参考訳(メタデータ) (2024-10-20T18:31:05Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - Evaluating Short-Term Temporal Fluctuations of Social Biases in Social Media Data and Masked Language Models [33.45788663056968]
社会的偏見はあらゆるバイアスに存在しているが、ほとんどの社会的偏見は時間とともに比較的安定している。
以上の結果から, 男性など一部の集団は, トレーニングコーパス上の女性など, 他者よりも高い嗜好を得ていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T13:45:21Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Constructing Holistic Measures for Social Biases in Masked Language
Models [17.45153670825904]
Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
現実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだことから、インスパイアされる可能性が高い。
Kullback Leiblergence Score (KLDivS) とJensen Shannon Divergence Score (JSDivS) の2つの評価指標を提案し,社会バイアスの評価を行った。
論文 参考訳(メタデータ) (2023-05-12T23:09:06Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - Gender Bias in Masked Language Models for Multiple Languages [31.528949172210233]
本稿では,英語属性単語リストと並列コーパスのみを用いて,様々な言語のバイアス評価を行うため,バイアス評価スコア(MBE)を提案する。
MBEを用いて8言語における偏見を評価し, 性別関連偏見がすべての言語に対して属性語にエンコードされていることを確認した。
論文 参考訳(メタデータ) (2022-05-01T20:19:14Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。