論文の概要: Measuring Gender Bias in West Slavic Language Models
- arxiv url: http://arxiv.org/abs/2304.05783v3
- Date: Thu, 25 May 2023 08:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:27:53.632093
- Title: Measuring Gender Bias in West Slavic Language Models
- Title(参考訳): 西スラヴ語モデルにおけるジェンダーバイアスの測定
- Authors: Sandra Martinkov\'a, Karolina Sta\'nczak, Isabelle Augenstein
- Abstract要約: チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリー対象に対する性別バイアスを測定した。
生成した単語の毒性と性差を定量化することにより、西スラヴ語モデルで符号化された性別バイアスを測定する。
これらの言語モデルは、被験者の性別に依存する有害な完成物を生成する。
- 参考スコア(独自算出の注目度): 41.49834421110596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have been known to perpetuate biases from the
underlying datasets to downstream tasks. However, these findings are
predominantly based on monolingual language models for English, whereas there
are few investigative studies of biases encoded in language models for
languages beyond English. In this paper, we fill this gap by analysing gender
bias in West Slavic language models. We introduce the first template-based
dataset in Czech, Polish, and Slovak for measuring gender bias towards male,
female and non-binary subjects. We complete the sentences using both mono- and
multilingual language models and assess their suitability for the masked
language modelling objective. Next, we measure gender bias encoded in West
Slavic language models by quantifying the toxicity and genderness of the
generated words. We find that these language models produce hurtful completions
that depend on the subject's gender. Perhaps surprisingly, Czech, Slovak, and
Polish language models produce more hurtful completions with men as subjects,
which, upon inspection, we find is due to completions being related to
violence, death, and sickness.
- Abstract(参考訳): トレーニング済みの言語モデルは、基礎となるデータセットからダウンストリームタスクへのバイアスを持続することが知られている。
しかし、これらの発見は主に英語の単言語モデルに基づいているが、英語以外の言語モデルでコード化されたバイアスに関する調査研究は少ない。
本稿では,西スラヴ語モデルにおけるジェンダーバイアスの分析により,このギャップを埋める。
チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリ対象に対する性別バイアスを測定した。
単言語と多言語の両方の言語モデルを用いて文を完成させ,マスキング言語モデリングの目的に適合性を評価する。
次に、西スラヴ語モデルで符号化されたジェンダーバイアスを、生成した単語の毒性とジェンダーネスを定量化する。
これらの言語モデルは、被験者の性別に依存する有害な完了を生成する。
チェコ語、スロバキア語、ポーランド語のモデルは、被検者として男性に対してより傷つきやすい完成をもたらしており、検査の結果、暴力、死、病気に関連する完成が原因であることが判明しました。
関連論文リスト
- Are Models Biased on Text without Gender-related Language? [14.931375031931386]
ステレオタイプフリーシナリオにおけるジェンダーバイアスを調査するための新しいフレームワークUnStereoEval(USE)を紹介する。
USEは事前学習データ統計に基づいて文レベルスコアを定義し、その文が単語と性別の関連が最小限であるかどうかを判定する。
28の試験モデルにおいて、偏見が低いことは、偏見が単にジェンダー関連の単語の存在に由来するものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-01T15:51:15Z) - Investigating Gender Bias in Turkish Language Models [3.100560442806189]
トルコ語モデルにおけるジェンダーバイアスの重要性について検討する。
我々は既存のバイアス評価フレームワークを構築し、それらをトルコ語に拡張する。
具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルを評価する。
論文 参考訳(メタデータ) (2024-04-17T20:24:41Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - Measuring Harmful Representations in Scandinavian Language Models [14.895663939509634]
スカンジナビアの事前学習言語モデルには有害なステレオタイプとジェンダーベースのステレオタイプが含まれていることを示す。
この発見は、スカンジナビア諸国の男女平等に関する一般的な期待に反している。
論文 参考訳(メタデータ) (2022-11-21T17:46:39Z) - Efficient Gender Debiasing of Pre-trained Indic Language Models [0.0]
言語モデルが事前訓練されたデータに存在する性別バイアスは、これらのモデルを使用するシステムに反映される。
本稿では,ヒンディー語モデルにおける職業に関する性別バイアスを測定した。
以上の結果から,提案手法の適応後のバイアスが低減されることが示唆された。
論文 参考訳(メタデータ) (2022-09-08T09:15:58Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。