論文の概要: Measuring Harmful Representations in Scandinavian Language Models
- arxiv url: http://arxiv.org/abs/2211.11678v1
- Date: Mon, 21 Nov 2022 17:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:49:58.749061
- Title: Measuring Harmful Representations in Scandinavian Language Models
- Title(参考訳): スカンジナビア言語モデルにおける有害表現の測定
- Authors: Samia Touileb and Debora Nozza
- Abstract要約: スカンジナビアの事前学習言語モデルには有害なステレオタイプとジェンダーベースのステレオタイプが含まれていることを示す。
この発見は、スカンジナビア諸国の男女平等に関する一般的な期待に反している。
- 参考スコア(独自算出の注目度): 14.895663939509634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scandinavian countries are perceived as role-models when it comes to gender
equality. With the advent of pre-trained language models and their widespread
usage, we investigate to what extent gender-based harmful and toxic content
exist in selected Scandinavian language models. We examine nine models,
covering Danish, Swedish, and Norwegian, by manually creating template-based
sentences and probing the models for completion. We evaluate the completions
using two methods for measuring harmful and toxic completions and provide a
thorough analysis of the results. We show that Scandinavian pre-trained
language models contain harmful and gender-based stereotypes with similar
values across all languages. This finding goes against the general expectations
related to gender equality in Scandinavian countries and shows the possible
problematic outcomes of using such models in real-world settings.
- Abstract(参考訳): スカンジナビア諸国は男女平等に関して役割モデルと見なされている。
事前学習言語モデルの出現とその普及に伴い,スカンジナビア語モデルにおいて,性別による有害・有害な内容がどの程度存在するかを検討した。
デンマーク語,スウェーデン語,ノルウェー語をカバーする9つのモデルについて,テンプレートベースの文を手作業で作成し,そのモデルを完成させる。
有害および有毒な完成度を測定するための2つの方法を用いて完成度を評価し,その結果を徹底的に分析する。
スカンジナビアの事前学習言語モデルには、すべての言語で同様の値を持つ有害かつ性別ベースのステレオタイプが含まれていることを示す。
この発見はスカンジナビア諸国の男女平等に関する一般的な期待に反し、現実の環境でそのようなモデルを使用することによる潜在的な問題の結果を示している。
関連論文リスト
- How Gender Interacts with Political Values: A Case Study on Czech BERT Models [0.0]
このケーススタディは、チェコの事前訓練エンコーダの政治的バイアスに焦点を当てている。
チェコ語は性的な言語であるため、調査における男女の反応と文法的な性別がどのように一致しているかを測定する。
モデルが値駆動推論に従って文の確率を割り当てていないことが分かる。
論文 参考訳(メタデータ) (2024-03-20T11:30:45Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Measuring Gender Bias in West Slavic Language Models [41.49834421110596]
チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリー対象に対する性別バイアスを測定した。
生成した単語の毒性と性差を定量化することにより、西スラヴ語モデルで符号化された性別バイアスを測定する。
これらの言語モデルは、被験者の性別に依存する有害な完成物を生成する。
論文 参考訳(メタデータ) (2023-04-12T11:49:43Z) - Measuring Normative and Descriptive Biases in Language Models Using
Census Data [6.445605125467574]
本研究では、事前訓練された言語モデルにおいて、性別に関する職業がどのように反映されているかを検討する。
本稿では,事前学習した言語モデルが規範的および記述的職業分布にどの程度適合しているかを測定するためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-12T11:06:14Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Word embedding and neural network on grammatical gender -- A case study
of Swedish [0.5243215690489517]
言語における文法的ジェンダーに関する情報は、単語埋め込みモデルと人工ニューラルネットワークによってどのように捉えられるかを示す。
我々は言語的観点から計算モデルによる誤りを分析する。
論文 参考訳(メタデータ) (2020-07-28T13:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。