論文の概要: Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2305.12709v1
- Date: Mon, 22 May 2023 04:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:27:49.409770
- Title: Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis
- Title(参考訳): 感性分析における言語間移動の意義
- Authors: Seraphina Goldfarb-Tarrant, Bj\"orn Ross, Adam Lopez
- Abstract要約: 異言語間移動では性別や人種的偏見が輸入されるか検討する。
言語間移動を用いたシステムは通常、モノリンガルのシステムよりも偏りが強くなる。
また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。
- 参考スコア(独自算出の注目度): 12.767209085664247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis (SA) systems are widely deployed in many of the world's
languages, and there is well-documented evidence of demographic bias in these
systems. In languages beyond English, scarcer training data is often
supplemented with transfer learning using pre-trained models, including
multilingual models trained on other languages. In some cases, even supervision
data comes from other languages. Does cross-lingual transfer also import new
biases? To answer this question, we use counterfactual evaluation to test
whether gender or racial biases are imported when using cross-lingual transfer,
compared to a monolingual transfer setting. Across five languages, we find that
systems using cross-lingual transfer usually become more biased than their
monolingual counterparts. We also find racial biases to be much more prevalent
than gender biases. To spur further research on this topic, we release the
sentiment models we used for this study, and the intermediate checkpoints
throughout training, yielding 1,525 distinct models; we also release our
evaluation code.
- Abstract(参考訳): 感性分析(SA)システムは世界中の多くの言語に広く展開されており、これらのシステムには人口統計バイアスの証拠が十分に文書化されている。
英語以外の言語では、不足した訓練データは、他の言語で訓練された多言語モデルを含む事前訓練されたモデルを用いたトランスファーラーニングで補うことが多い。
場合によっては、他の言語からの監視データもある。
言語間移動も新しいバイアスをインポートするのか?
この疑問に答えるために, 対人評価を用いて, 言語間移動を用いた場合, 性別や人種バイアスが単言語移行設定に比較して輸入されるかどうかを検証した。
5言語にわたって、言語間移動を用いたシステムは、通常モノリンガルよりも偏りが強くなる。
また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。
このトピックに関するさらなる研究を促進するため、本研究で使用した感情モデルと、トレーニング全体を通じて中間チェックポイントを公開し、1,525の異なるモデルを生成しました。
関連論文リスト
- Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Bias Beyond English: Counterfactual Tests for Bias in Sentiment Analysis
in Four Languages [13.694445396757162]
感性分析システムは、多くの製品や数百の言語で使われている。
性別と人種の偏見は英語のSAシステムではよく研究されているが、他の言語では調査されていない。
ジェンダーと人種・移民の偏見を4言語で評価する対物評価コーパスを構築した。
論文 参考訳(メタデータ) (2023-05-19T13:38:53Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。