論文の概要: Comparing Biases and the Impact of Multilingual Training across Multiple
Languages
- arxiv url: http://arxiv.org/abs/2305.11242v1
- Date: Thu, 18 May 2023 18:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:38:07.906184
- Title: Comparing Biases and the Impact of Multilingual Training across Multiple
Languages
- Title(参考訳): 複数の言語にまたがる多言語学習のバイアスと影響の比較
- Authors: Sharon Levy, Neha Anna John, Ling Liu, Yogarshi Vyas, Jie Ma,
Yoshinari Fujinuma, Miguel Ballesteros, Vittorio Castelli, Dan Roth
- Abstract要約: ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
- 参考スコア(独自算出の注目度): 70.84047257764405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies in bias and fairness in natural language processing have primarily
examined social biases within a single language and/or across few attributes
(e.g. gender, race). However, biases can manifest differently across various
languages for individual attributes. As a result, it is critical to examine
biases within each language and attribute. Of equal importance is to study how
these biases compare across languages and how the biases are affected when
training a model on multilingual data versus monolingual data. We present a
bias analysis across Italian, Chinese, English, Hebrew, and Spanish on the
downstream sentiment analysis task to observe whether specific demographics are
viewed more positively. We study bias similarities and differences across these
languages and investigate the impact of multilingual vs. monolingual training
data. We adapt existing sentiment bias templates in English to Italian,
Chinese, Hebrew, and Spanish for four attributes: race, religion, nationality,
and gender. Our results reveal similarities in bias expression such as
favoritism of groups that are dominant in each language's culture (e.g.
majority religions and nationalities). Additionally, we find an increased
variation in predictions across protected groups, indicating bias
amplification, after multilingual finetuning in comparison to multilingual
pretraining.
- Abstract(参考訳): 自然言語処理におけるバイアスと公平性の研究は、主に単一の言語といくつかの属性(例えば性別、人種)における社会的バイアスを調査してきた。
しかし、バイアスは個々の属性に対して様々な言語で異なる形で現れる。
結果として、各言語と属性内のバイアスを調べることが重要となる。
等しく重要であるのは、これらのバイアスが言語間でどのように比較され、多言語データと単言語データでモデルをトレーニングする際にバイアスがどのように影響を受けるかを研究することである。
我々は、特定の人口層がより肯定的に見られているかどうかを確認するために、下流の感情分析タスクにおいて、イタリア語、中国語、英語、ヘブライ語、スペイン語の偏見分析を行う。
これらの言語におけるバイアスの類似性と相違について検討し,多言語対単言語訓練データの影響について検討した。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
その結果,各言語の文化(多数派宗教や国籍など)に支配的な集団の優越性など,バイアス表現の類似性を明らかにした。
さらに,保護群間での予測のばらつきが増大し,多言語前訓練と比較して,多言語微調整後のバイアス増幅がみられた。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。
より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文 参考訳(メタデータ) (2023-10-26T17:07:50Z) - Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis [12.767209085664247]
異言語間移動では性別や人種的偏見が輸入されるか検討する。
言語間移動を用いたシステムは通常、モノリンガルのシステムよりも偏りが強くなる。
また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。
論文 参考訳(メタデータ) (2023-05-22T04:37:49Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Mitigating Language-Dependent Ethnic Bias in BERT [11.977810781738603]
単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスと言語によってどのように異なるかを研究する。
民族バイアスを観察・定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。
本稿では,まず多言語モデルと2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。
論文 参考訳(メタデータ) (2021-09-13T04:52:41Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。