論文の概要: Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2410.10995v1
- Date: Mon, 14 Oct 2024 18:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:55.962872
- Title: Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation
- Title(参考訳): 時計を観る:機械翻訳品質評価における性差の露呈
- Authors: Emmanouil Zaranis, Giuseppe Attanasio, Sweta Agrawal, André F. T. Martins,
- Abstract要約: 本稿では,QE(QE)指標における性別バイアスと機械翻訳(MT)に対する下流の影響について,初めて考察する。
男性求心性翻訳は女性求心性翻訳よりも高く、性中立性翻訳はペナル化される。
品質認識復号に使用する場合,QE測定値がMTシステムの性別バイアスを持続できることを示す。
- 参考スコア(独自算出の注目度): 28.01631390361754
- License:
- Abstract: The automatic assessment of translation quality has recently become crucial for many stages of the translation pipeline, from data curation to training and decoding. However, while quality estimation metrics have been optimized to align with human judgments, no attention has been given to these metrics' potential biases, particularly in reinforcing visibility and usability for some demographic groups over others. This paper is the first to investigate gender bias in quality estimation (QE) metrics and its downstream impact on machine translation (MT). We focus on out-of-English translations where the target language uses grammatical gender. We ask: (RQ1) Do contemporary QE metrics exhibit gender bias? (RQ2) Can the use of contextual information mitigate this bias? (RQ3) How does QE influence gender bias in MT outputs? Experiments with state-of-the-art QE metrics across multiple domains, datasets, and languages reveal significant bias. Masculine-inflected translations score higher than feminine-inflected ones, and gender-neutral translations are penalized. Moreover, context-aware QE metrics reduce errors for masculine-inflected references but fail to address feminine referents, exacerbating gender disparities. Additionally, we show that QE metrics can perpetuate gender bias in MT systems when used in quality-aware decoding. Our findings highlight the need to address gender bias in QE metrics to ensure equitable and unbiased MT systems.
- Abstract(参考訳): 近年,データキュレーションからトレーニング,復号化に至るまで,翻訳パイプラインの多くの段階において,翻訳品質の自動評価が重要になっている。
しかしながら、品質推定指標は人間の判断に合わせるように最適化されているものの、これらの指標の潜在的なバイアスには注意が向けられていない。
本稿では,QE(QE)指標における性別バイアスと,機械翻訳(MT)に対する下流の影響について検討した。
対象言語が文法的ジェンダーを使用する英語外翻訳に焦点を当てる。
RQ1) 現代のQE指標はジェンダーバイアスを示すか?
(RQ2)
文脈情報の使用は、このバイアスを軽減することができるのか?
(RQ3)
QEはMT出力の性別バイアスにどのように影響するか?
最先端のQEメトリクスによる実験は、複数のドメイン、データセット、言語にまたがって大きなバイアスを呈している。
男性求心性翻訳は女性求心性翻訳よりも高く、性中立性翻訳はペナル化される。
さらに、文脈を意識したQE尺度は、男性関係の参照のエラーを減らすが、女性関係の参照に対処できず、男女格差が悪化する。
さらに,QE指標は,品質認識復号法においてMTシステムの性別バイアスを持続させることができることを示す。
以上の結果から,QE指標の男女差に対処することの必要性が浮き彫りとなった。
関連論文リスト
- GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Mitigating Gender Bias in Machine Translation through Adversarial
Learning [0.8883733362171032]
本稿では,Seq2seq機械翻訳におけるジェンダーバイアスを軽減するための課題に対処する逆学習フレームワークを提案する。
本枠組みは,英語翻訳では86%,フランス語翻訳では91%,男性対女性文では86%の翻訳品質を向上する。
論文 参考訳(メタデータ) (2022-03-20T23:35:09Z) - Evaluating Gender Bias in Speech Translation [0.0]
本稿では、音声翻訳におけるジェンダーバイアスを評価するために、WinoSTを提案する。
最先端のエンドツーエンド音声翻訳システムを用いて、4つの言語対の性別バイアス評価を報告する。
論文 参考訳(メタデータ) (2020-10-27T17:24:27Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z) - Reducing Gender Bias in Neural Machine Translation as a Domain
Adaptation Problem [21.44025591721678]
NLPタスクのトレーニングデータは、男性よりも女性に言及する文が少ないという性別バイアスを呈することが多い。
最近のWinoMTチャレンジセットでは、この効果を直接測定することができます。
私たちは、信頼できる性別バランスの例の小さなセットでトランスファーラーニングを使用します。
論文 参考訳(メタデータ) (2020-04-09T11:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。