論文の概要: Mitigating Language-Dependent Ethnic Bias in BERT
- arxiv url: http://arxiv.org/abs/2109.05704v2
- Date: Tue, 14 Sep 2021 06:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:02:24.604200
- Title: Mitigating Language-Dependent Ethnic Bias in BERT
- Title(参考訳): BERTにおける言語依存性倫理バイアスの緩和
- Authors: Jaimeen Ahn and Alice Oh
- Abstract要約: 単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスと言語によってどのように異なるかを研究する。
民族バイアスを観察・定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。
本稿では,まず多言語モデルと2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。
- 参考スコア(独自算出の注目度): 11.977810781738603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT and other large-scale language models (LMs) contain gender and racial
bias. They also exhibit other dimensions of social bias, most of which have not
been studied in depth, and some of which vary depending on the language. In
this paper, we study ethnic bias and how it varies across languages by
analyzing and mitigating ethnic bias in monolingual BERT for English, German,
Spanish, Korean, Turkish, and Chinese. To observe and quantify ethnic bias, we
develop a novel metric called Categorical Bias score. Then we propose two
methods for mitigation; first using a multilingual model, and second using
contextual word alignment of two monolingual models. We compare our proposed
methods with monolingual BERT and show that these methods effectively alleviate
the ethnic bias. Which of the two methods works better depends on the amount of
NLP resources available for that language. We additionally experiment with
Arabic and Greek to verify that our proposed methods work for a wider variety
of languages.
- Abstract(参考訳): BERTや他の大規模言語モデル(LM)には、性別と人種バイアスが含まれている。
彼らはまた、他の社会的偏見の次元も示しており、そのほとんどは深く研究されておらず、一部は言語によって異なる。
本稿では、英語、ドイツ語、スペイン語、韓国語、トルコ語、中国語の単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスが言語によってどのように変化するかを検討する。
民族バイアスを観察し定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。
次に,2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。
提案手法と単言語BERTを比較し,これらの手法が民族バイアスを効果的に緩和することを示す。
どちらの方法がうまく機能するかは、その言語で利用可能なNLPリソースの量に依存する。
さらにアラビア語とギリシャ語で実験を行い、提案手法がより幅広い言語で有効であることを検証した。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Debiasing Multilingual Word Embeddings: A Case Study of Three Indian
Languages [9.208381487410191]
単言語および多言語設定に対する偏りと偏りの異なるアプローチを定量化するための異なる手法を検討する。
提案手法は,3つのインドの言語に対する多言語埋め込みを曖昧にするための最先端性能を確立する。
論文 参考訳(メタデータ) (2021-07-21T16:12:51Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。