Fugu-MT 論文翻訳(概要): Measuring Gender Bias in West Slavic Language Models

論文の概要: Measuring Gender Bias in West Slavic Language Models

arxiv url: http://arxiv.org/abs/2304.05783v3
Date: Thu, 25 May 2023 08:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 20:27:53.632093
Title: Measuring Gender Bias in West Slavic Language Models
Title（参考訳）: 西スラヴ語モデルにおけるジェンダーバイアスの測定
Authors: Sandra Martinkov\'a, Karolina Sta\'nczak, Isabelle Augenstein
Abstract要約: チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリー対象に対する性別バイアスを測定した。生成した単語の毒性と性差を定量化することにより、西スラヴ語モデルで符号化された性別バイアスを測定する。これらの言語モデルは、被験者の性別に依存する有害な完成物を生成する。
参考スコア（独自算出の注目度）: 41.49834421110596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models have been known to perpetuate biases from the underlying datasets to downstream tasks. However, these findings are predominantly based on monolingual language models for English, whereas there are few investigative studies of biases encoded in language models for languages beyond English. In this paper, we fill this gap by analysing gender bias in West Slavic language models. We introduce the first template-based dataset in Czech, Polish, and Slovak for measuring gender bias towards male, female and non-binary subjects. We complete the sentences using both mono- and multilingual language models and assess their suitability for the masked language modelling objective. Next, we measure gender bias encoded in West Slavic language models by quantifying the toxicity and genderness of the generated words. We find that these language models produce hurtful completions that depend on the subject's gender. Perhaps surprisingly, Czech, Slovak, and Polish language models produce more hurtful completions with men as subjects, which, upon inspection, we find is due to completions being related to violence, death, and sickness.
Abstract（参考訳）: トレーニング済みの言語モデルは、基礎となるデータセットからダウンストリームタスクへのバイアスを持続することが知られている。しかし、これらの発見は主に英語の単言語モデルに基づいているが、英語以外の言語モデルでコード化されたバイアスに関する調査研究は少ない。本稿では,西スラヴ語モデルにおけるジェンダーバイアスの分析により,このギャップを埋める。チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリ対象に対する性別バイアスを測定した。単言語と多言語の両方の言語モデルを用いて文を完成させ,マスキング言語モデリングの目的に適合性を評価する。次に、西スラヴ語モデルで符号化されたジェンダーバイアスを、生成した単語の毒性とジェンダーネスを定量化する。これらの言語モデルは、被験者の性別に依存する有害な完了を生成する。チェコ語、スロバキア語、ポーランド語のモデルは、被検者として男性に対してより傷つきやすい完成をもたらしており、検査の結果、暴力、死、病気に関連する完成が原因であることが判明しました。

関連論文リスト

EuroGEST: Investigating gender stereotypes in multilingual language models [53.88459905621724]
大規模言語モデルはますます複数の言語をサポートするようになったが、ほとんどのベンチマークは英語中心のままである。 EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
論文参考訳（メタデータ） (2025-06-04T11:58:18Z)
Are Models Biased on Text without Gender-related Language? [14.931375031931386]
ステレオタイプフリーシナリオにおけるジェンダーバイアスを調査するための新しいフレームワークUnStereoEval(USE)を紹介する。 USEは事前学習データ統計に基づいて文レベルスコアを定義し、その文が単語と性別の関連が最小限であるかどうかを判定する。 28の試験モデルにおいて、偏見が低いことは、偏見が単にジェンダー関連の単語の存在に由来するものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-01T15:51:15Z)
Investigating Gender Bias in Turkish Language Models [3.100560442806189]
トルコ語モデルにおけるジェンダーバイアスの重要性について検討する。我々は既存のバイアス評価フレームワークを構築し、それらをトルコ語に拡張する。具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルを評価する。
論文参考訳（メタデータ） (2024-04-17T20:24:41Z)
Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-01-29T12:02:28Z)
Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文参考訳（メタデータ） (2023-10-16T22:25:09Z)
Measuring Harmful Representations in Scandinavian Language Models [14.895663939509634]
スカンジナビアの事前学習言語モデルには有害なステレオタイプとジェンダーベースのステレオタイプが含まれていることを示す。この発見は、スカンジナビア諸国の男女平等に関する一般的な期待に反している。
論文参考訳（メタデータ） (2022-11-21T17:46:39Z)
Efficient Gender Debiasing of Pre-trained Indic Language Models [0.0]
言語モデルが事前訓練されたデータに存在する性別バイアスは、これらのモデルを使用するシステムに反映される。本稿では,ヒンディー語モデルにおける職業に関する性別バイアスを測定した。以上の結果から,提案手法の適応後のバイアスが低減されることが示唆された。
論文参考訳（メタデータ） (2022-09-08T09:15:58Z)
Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ） (2022-04-17T23:56:54Z)
Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文参考訳（メタデータ） (2022-03-18T12:26:37Z)
Quantifying Gender Bias Towards Politicians in Cross-Lingual Language Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文参考訳（メタデータ） (2021-04-15T15:03:26Z)
Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文参考訳（メタデータ） (2020-05-01T21:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。