論文の概要: Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2005.00699v1
- Date: Sat, 2 May 2020 04:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:08:22.053990
- Title: Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer
- Title(参考訳): 多言語組込みと言語間伝達におけるジェンダーバイアス
- Authors: Jieyu Zhao, Subhabrata Mukherjee, Saghar Hosseini, Kai-Wei Chang and
Ahmed Hassan Awadallah
- Abstract要約: 多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
- 参考スコア(独自算出の注目度): 101.58431011820755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual representations embed words from many languages into a single
semantic space such that words with similar meanings are close to each other
regardless of the language. These embeddings have been widely used in various
settings, such as cross-lingual transfer, where a natural language processing
(NLP) model trained on one language is deployed to another language. While the
cross-lingual transfer techniques are powerful, they carry gender bias from the
source to target languages. In this paper, we study gender bias in multilingual
embeddings and how it affects transfer learning for NLP applications. We create
a multilingual dataset for bias analysis and propose several ways for
quantifying bias in multilingual representations from both the intrinsic and
extrinsic perspectives. Experimental results show that the magnitude of bias in
the multilingual representations changes differently when we align the
embeddings to different target spaces and that the alignment direction can also
have an influence on the bias in transfer learning. We further provide
recommendations for using the multilingual word representations for downstream
tasks.
- Abstract(参考訳): 多言語表現は、言語に関係なく、類似した意味を持つ単語が互いに近いように、多くの言語からの単語を単一の意味空間に埋め込む。
これらの埋め込みは、ある言語で訓練された自然言語処理(nlp)モデルを他の言語にデプロイするクロスリンガル転送など、様々な環境で広く使われている。
言語間の伝達技術は強力だが、ソースからターゲット言語への性別バイアスを担っている。
本稿では,多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
バイアス分析のための多言語データセットを作成し、本質的・外生的両視点から多言語表現におけるバイアスの定量化方法を提案する。
実験の結果,多言語表現におけるバイアスの大きさは,埋め込みを異なる対象空間に合わせると異なる変化を示し,アライメント方向も伝達学習のバイアスに影響を与えることが示された。
さらに,下流タスクにおける多言語単語表現の使用を推奨する。
関連論文リスト
- Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis [12.767209085664247]
異言語間移動では性別や人種的偏見が輸入されるか検討する。
言語間移動を用いたシステムは通常、モノリンガルのシステムよりも偏りが強くなる。
また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。
論文 参考訳(メタデータ) (2023-05-22T04:37:49Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。