論文の概要: Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2410.10995v3
- Date: Tue, 11 Mar 2025 10:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:39:42.669952
- Title: Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation
- Title(参考訳): 時計を観る:機械翻訳品質評価における性差の露呈
- Authors: Emmanouil Zaranis, Giuseppe Attanasio, Sweta Agrawal, André F. T. Martins,
- Abstract要約: 本稿では,QE指標の性別バイアスを定義し,検討する。
男性求心翻訳は女性求心翻訳よりも高いスコアを示し,性中立翻訳はペナル化されている。
本研究は,ジェンダーを中心としたQE指標の開発と評価に新たな焦点をあてることの必要性を強調した。
- 参考スコア(独自算出の注目度): 28.01631390361754
- License:
- Abstract: Quality estimation (QE) -- the automatic assessment of translation quality -- has recently become crucial across several stages of the translation pipeline, from data curation to training and decoding. While QE metrics have been optimized to align with human judgments, whether they encode social biases has been largely overlooked. Biased QE risks favoring certain demographic groups over others, e.g., by exacerbating gaps in visibility and usability. This paper defines and investigates gender bias of QE metrics and discusses its downstream implications for machine translation (MT). Experiments with state-of-the-art QE metrics across multiple domains, datasets, and languages reveal significant bias. When a human entity's gender in the source is undisclosed, masculine-inflected translations score higher than feminine-inflected ones and gender-neutral translations are penalized. Even when contextual cues disambiguate gender, using context-aware QE metrics leads to more errors in picking the correct translation inflection for feminine than masculine referents. Moreover, a biased QE metric affects data filtering and quality-aware decoding. Our findings highlight the need for renewed focus in developing and evaluating QE metrics centered around gender.
- Abstract(参考訳): 翻訳品質の自動評価である品質評価(QE)は、データキュレーションからトレーニング、デコードに至るまで、翻訳パイプラインのいくつかの段階において、最近重要になっている。
QEメトリクスは人間の判断に合わせるように最適化されているが、社会的バイアスをエンコードするかどうかはほとんど見過ごされている。
バイアスドQEは、可視性とユーザビリティのギャップを悪化させることで、他よりも特定の人口集団を優先するリスクがある。
本稿では,QE指標の性別バイアスを定義し,そのダウンストリームが機械翻訳(MT)に与える影響について考察する。
最先端のQEメトリクスによる実験は、複数のドメイン、データセット、言語にまたがって大きなバイアスを呈している。
ソース内のヒトの実体の性別が開示されていない場合、男性-求心翻訳は女性-求心翻訳よりも高く、性別-中性翻訳はペナル化される。
文脈的手がかりが性差を曖昧にする場合であっても、文脈を意識したQEメトリクスを使用することで、男性よりも女性に対する正しい翻訳インフレクションを選択する際のエラーが増加する。
さらに、バイアスドQEメトリックは、データフィルタリングと品質認識復号に影響を及ぼす。
本研究は,ジェンダーを中心としたQE指標の開発と評価に新たな焦点をあてることの必要性を強調した。
関連論文リスト
- GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Whose wife is it anyway? Assessing bias against same-gender relationships in machine translation [26.676686759877597]
機械翻訳は、しばしばバイアスのあるデータやアルゴリズムに悩まされる。
MTシステムにおける同性関係に対するバイアスの程度について検討する。
3つの一般的なMTサービスは、同じ性別のエンティティ間の関係に関する文を正確に翻訳することができないことが分かりました。
論文 参考訳(メタデータ) (2024-01-10T07:33:32Z) - Gender Inflected or Bias Inflicted: On Using Grammatical Gender Cues for
Bias Evaluation in Machine Translation [0.0]
我々はヒンディー語をソース言語とし、ヒンディー語(HI-EN)の異なるNMTシステムを評価するために、ジェンダー特化文の2つのセットを構築した。
本研究は,そのような外部バイアス評価データセットを設計する際に,言語の性質を考えることの重要性を強調した。
論文 参考訳(メタデータ) (2023-11-07T07:09:59Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z) - Reducing Gender Bias in Neural Machine Translation as a Domain
Adaptation Problem [21.44025591721678]
NLPタスクのトレーニングデータは、男性よりも女性に言及する文が少ないという性別バイアスを呈することが多い。
最近のWinoMTチャレンジセットでは、この効果を直接測定することができます。
私たちは、信頼できる性別バランスの例の小さなセットでトランスファーラーニングを使用します。
論文 参考訳(メタデータ) (2020-04-09T11:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。