論文の概要: How Different Is Stereotypical Bias Across Languages?
- arxiv url: http://arxiv.org/abs/2307.07331v1
- Date: Fri, 14 Jul 2023 13:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:51:35.359041
- Title: How Different Is Stereotypical Bias Across Languages?
- Title(参考訳): 言語間のステレオタイプバイアスはどの程度異なるのか?
- Authors: Ibrahim Tolga \"Ozt\"urk and Rostislav Nedelchev and Christian Heumann
and Esteban Garces Arias and Marius Roger and Bernd Bischl and Matthias
A{\ss}enmacher
- Abstract要約: 近年の研究では、事前学習した英語モデルのステレオタイプバイアスを評価する方法が実証されている。
我々は、英語のStereoSetデータセット(Nadeem et al., 2021)を半自動でドイツ語、フランス語、スペイン語、トルコ語に翻訳する。
分析から得られた主な特徴は、mGPT-2は言語間で驚くべき反ステレオタイプ行動を示し、英語(モノリンガル)モデルは最も強いバイアスを示し、データセットに反映されるステレオタイプはトルコのモデルにはほとんど存在しないということである。
- 参考スコア(独自算出の注目度): 1.0467550794914122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated how to assess the stereotypical bias in
pre-trained English language models. In this work, we extend this branch of
research in multiple different dimensions by systematically investigating (a)
mono- and multilingual models of (b) different underlying architectures with
respect to their bias in (c) multiple different languages. To that end, we make
use of the English StereoSet data set (Nadeem et al., 2021), which we
semi-automatically translate into German, French, Spanish, and Turkish. We find
that it is of major importance to conduct this type of analysis in a
multilingual setting, as our experiments show a much more nuanced picture as
well as notable differences from the English-only analysis. The main takeaways
from our analysis are that mGPT-2 (partly) shows surprising anti-stereotypical
behavior across languages, English (monolingual) models exhibit the strongest
bias, and the stereotypes reflected in the data set are least present in
Turkish models. Finally, we release our codebase alongside the translated data
sets and practical guidelines for the semi-automatic translation to encourage a
further extension of our work to other languages.
- Abstract(参考訳): 近年の研究では、事前学習した英語モデルのステレオタイプバイアスを評価する方法が実証されている。
本研究では,この研究分野を多次元に拡張し,系統的に研究する。
a)単言語および多言語モデルのモデル
(b)そのバイアスに関して異なる基盤となるアーキテクチャ
(c)複数の異なる言語。
そのために、私たちはドイツ語、フランス語、スペイン語、トルコ語に半自動翻訳する英語ステレオセットデータセット(nadeem et al., 2021)を使用します。
我々の実験は、英語のみの分析と顕著な相違だけでなく、よりニュアンスな図式を示すので、多言語的な環境でこの種の分析を行うことが重要である。
分析から得られた主な特徴は、mGPT-2(一部)は言語間の驚くべき反ステレオタイプ的挙動を示し、英語(モノリンガル)モデルは最も強いバイアスを示し、データセットに反映されるステレオタイプはトルコのモデルにはほとんど存在しないことである。
最後に、翻訳されたデータセットと半自動翻訳の実践的ガイドラインとともにコードベースをリリースし、他の言語へのさらなる拡張を奨励します。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。
単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文 参考訳(メタデータ) (2024-07-08T08:46:50Z) - MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis [12.767209085664247]
異言語間移動では性別や人種的偏見が輸入されるか検討する。
言語間移動を用いたシステムは通常、モノリンガルのシステムよりも偏りが強くなる。
また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。
論文 参考訳(メタデータ) (2023-05-22T04:37:49Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Bias at a Second Glance: A Deep Dive into Bias for German Educational
Peer-Review Data Modeling [10.080007569933331]
我々は5年間で9,165人のドイツのピアレビューのコーパスで、テキストと複数のアーキテクチャ間のバイアスを分析します。
収集したコーパスは, 共起解析やGloVe埋め込みにおいて多くのバイアスを示さない。
事前訓練されたドイツの言語モデルは、実質的な概念的、人種的、性別的偏見を見出す。
論文 参考訳(メタデータ) (2022-09-21T13:08:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。