論文の概要: Gender Bias in Masked Language Models for Multiple Languages
- arxiv url: http://arxiv.org/abs/2205.00551v1
- Date: Sun, 1 May 2022 20:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 01:30:01.731098
- Title: Gender Bias in Masked Language Models for Multiple Languages
- Title(参考訳): 複数の言語を対象としたマスキング言語モデルにおけるジェンダーバイアス
- Authors: Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki
- Abstract要約: 本稿では,英語属性単語リストと並列コーパスのみを用いて,様々な言語のバイアス評価を行うため,バイアス評価スコア(MBE)を提案する。
MBEを用いて8言語における偏見を評価し, 性別関連偏見がすべての言語に対して属性語にエンコードされていることを確認した。
- 参考スコア(独自算出の注目度): 31.528949172210233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Language Models (MLMs) pre-trained by predicting masked tokens on
large corpora have been used successfully in natural language processing tasks
for a variety of languages. Unfortunately, it was reported that MLMs also learn
discriminative biases regarding attributes such as gender and race. Because
most studies have focused on MLMs in English, the bias of MLMs in other
languages has rarely been investigated. Manual annotation of evaluation data
for languages other than English has been challenging due to the cost and
difficulty in recruiting annotators. Moreover, the existing bias evaluation
methods require the stereotypical sentence pairs consisting of the same context
with attribute words (e.g. He/She is a nurse). We propose Multilingual Bias
Evaluation (MBE) score, to evaluate bias in various languages using only
English attribute word lists and parallel corpora between the target language
and English without requiring manually annotated data. We evaluated MLMs in
eight languages using the MBE and confirmed that gender-related biases are
encoded in MLMs for all those languages. We manually created datasets for
gender bias in Japanese and Russian to evaluate the validity of the MBE. The
results show that the bias scores reported by the MBE significantly correlates
with that computed from the above manually created datasets and the existing
English datasets for gender bias.
- Abstract(参考訳): 大型コーパスのマスクトークンを予測して事前学習したマスク言語モデル(mlms)は、様々な言語での自然言語処理タスクでうまく使われている。
残念ながら、MLMは性別や人種などの属性に関する差別バイアスも学習していると報告されている。
ほとんどの研究は英語のMLMに焦点を当てているため、他の言語でのMLMのバイアスはめったに研究されていない。
英語以外の言語に対する評価データのマニュアルアノテーションは、アノテータの採用コストと難しさのために困難である。
さらに、既存のバイアス評価手法では、属性語と同じ文脈(例えばHe/Sheは看護婦)のステレオタイプ文対を必要とする。
手動で注釈付きデータを必要とすることなく、英語の属性単語リストと英語のパラレルコーパスのみを用いて、様々な言語のバイアスを評価するための多言語バイアス評価(MBE)スコアを提案する。
MBEを用いて8言語でのMLMの評価を行い、これらの言語に対して性別関連バイアスがMLMにエンコードされていることを確認した。
MBEの有効性を評価するために、日本語とロシア語の性別バイアスのためのデータセットを手作業で作成した。
その結果、MBEが報告したバイアススコアは、上記の手作業で作成したデータセットと、既存の英語のジェンダーバイアスのデータセットと大きく相関していることがわかった。
関連論文リスト
- The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models [8.618945530676614]
本稿では,中国語,英語,ドイツ語,ポルトガル語,スペイン語の5言語から,多言語辞書の性別バイアスを推定する手法を提案する。
ジェンダーバイアスのより堅牢な分析のための文対を生成するために,新しいモデルに基づく手法を提案する。
以上の結果から,複数の評価指標をベストプラクティスとして用いた大規模データセットでは,性別バイアスを研究すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T21:12:08Z) - Gender Bias in Large Language Models across Multiple Languages [10.068466432117113]
異なる言語で生成される大言語モデル(LLM)の性別バイアスについて検討する。
1) 性別関連文脈から記述的単語を選択する際の性別バイアス。
2) 性別関連代名詞を選択する際の性別バイアスは, 記述語を付与する。
論文 参考訳(メタデータ) (2024-03-01T04:47:16Z) - UnMASKed: Quantifying Gender Biases in Masked Language Models through
Linguistically Informed Job Market Prompts [0.0]
この研究は、マスキング言語モデル(MLM)に存在する固有のバイアスを掘り下げる。
本研究では, BERT, RoBERTa, DistilBERT, BERT-multilingual, XLM-RoBERTa, DistilBERT-multilingualの6つのモデルについて検討した。
この分析により、すべてのモデルのステレオタイプ的な性別アライメントが明らかとなり、多言語変異は相対的にバイアスを減少させる。
論文 参考訳(メタデータ) (2024-01-28T23:00:40Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Language-Agnostic Bias Detection in Language Models with Bias Probing [22.695872707061078]
プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。
本研究では,PAMにおける社会的バイアスを頑健かつ言語に依存しない方法で評価するための,LABDetと呼ばれるバイアス探索手法を提案する。
歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:58:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。