論文の概要: Towards Massive Multilingual Holistic Bias
- arxiv url: http://arxiv.org/abs/2407.00486v1
- Date: Sat, 29 Jun 2024 16:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:56:15.241441
- Title: Towards Massive Multilingual Holistic Bias
- Title(参考訳): 大規模多言語ホリスティックバイアスを目指して
- Authors: Xiaoqing Ellen Tan, Prangthip Hansanti, Carleigh Wood, Bokai Yu, Christophe Ropers, Marta R. Costa-jussà,
- Abstract要約: 我々は,MaSSIVE MultilingUal HOLISTICBIASデータセットから,最初の8言語を提示する。
本稿では,MMHB文を言語範囲とサイズの両方で拡張するための自動構築手法を提案する。
- 参考スコア(独自算出の注目度): 9.44611286329108
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the current landscape of automatic language generation, there is a need to understand, evaluate, and mitigate demographic biases as existing models are becoming increasingly multilingual. To address this, we present the initial eight languages from the MASSIVE MULTILINGUAL HOLISTICBIAS (MMHB) dataset and benchmark consisting of approximately 6 million sentences representing 13 demographic axes. We propose an automatic construction methodology to further scale up MMHB sentences in terms of both language coverage and size, leveraging limited human annotation. Our approach utilizes placeholders in multilingual sentence construction and employs a systematic method to independently translate sentence patterns, nouns, and descriptors. Combined with human translation, this technique carefully designs placeholders to dynamically generate multiple sentence variations and significantly reduces the human translation workload. The translation process has been meticulously conducted to avoid an English-centric perspective and include all necessary morphological variations for languages that require them, improving from the original English HOLISTICBIAS. Finally, we utilize MMHB to report results on gender bias and added toxicity in machine translation tasks. On the gender analysis, MMHB unveils: (1) a lack of gender robustness showing almost +4 chrf points in average for masculine semantic sentences compared to feminine ones and (2) a preference to overgeneralize to masculine forms by reporting more than +12 chrf points in average when evaluating with masculine compared to feminine references. MMHB triggers added toxicity up to 2.3%.
- Abstract(参考訳): 自動言語生成の現在の状況では、既存のモデルがますます多言語化しつつあるため、人口統計バイアスを理解し、評価し、緩和する必要がある。
そこで本稿では,MaSSIVE MultilingUal HOLISTICBIAS(MMHB)データセットと,約600万の文が13の人口軸を表すベンチマークから,最初の8つの言語を提示する。
言語の範囲と大きさの両面でMMHB文を拡大するための自動構築手法を提案する。
提案手法は,多言語文構築においてプレースホルダーを利用し,文パターン,名詞,記述子を独立に翻訳する体系的手法を用いる。
この手法は人間の翻訳と組み合わせることで、プレースホルダーを慎重に設計し、複数の文を動的に生成し、人間の翻訳作業量を大幅に削減する。
翻訳プロセスは、英語中心の視点を避け、それらを必要とする言語に必要な形態変化をすべて含み、オリジナルの英語 HOLISTICBIAS から改良された。
最後に、MMHBを用いて、性別バイアスの結果を報告し、機械翻訳タスクに毒性を加えた。
性別分析では,(1)男性に比較して男性意味文の平均+4 chrf点を示す性別の頑健さの欠如,(2)女性参照と比較した場合に平均+12 chrf点を報告して男性形式に過度に一般化する傾向が示された。
MMHBは毒性を最大2.3%上昇させる。
関連論文リスト
- The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - Multilingual Holistic Bias: Extending Descriptors and Patterns to Unveil
Demographic Biases in Languages at Scale [0.21079694661943604]
この拡張は、20,459の文からなる。
我々のベンチマークは、人口動態の不均衡を明らかにすることを目的としており、それらに対する緩和を定量化するためのツールである。
論文 参考訳(メタデータ) (2023-05-22T16:29:04Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。