論文の概要: GAMBIT+: A Challenge Set for Evaluating Gender Bias in Machine Translation Quality Estimation Metrics
- arxiv url: http://arxiv.org/abs/2510.06841v1
- Date: Wed, 08 Oct 2025 10:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.413089
- Title: GAMBIT+: A Challenge Set for Evaluating Gender Bias in Machine Translation Quality Estimation Metrics
- Title(参考訳): GAMBIT+:機械翻訳品質評価指標におけるジェンダーバイアス評価のための課題セット
- Authors: Giorgos Filandrianos, Orfeas Menis Mastromichalakis, Wafaa Mohammed, Giuseppe Attanasio, Chrysoula Zerva,
- Abstract要約: 機械翻訳(MT)システムにおけるジェンダーバイアスは広範囲に記録されているが、自動品質推定(QE)メトリクスのバイアスは比較的過小評価されている。
既存の研究では、QEメトリクスは性別バイアスも示せるが、ほとんどの分析は小さなデータセット、狭い職業範囲、制限された言語多様性によって制限されている。
本稿では,ジェンダーのあいまいな職業用語を含む翻訳を評価する際に,QE指標の振る舞いを調査するための大規模課題セットを提案する。
- 参考スコア(独自算出の注目度): 18.766033854102663
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gender bias in machine translation (MT) systems has been extensively documented, but bias in automatic quality estimation (QE) metrics remains comparatively underexplored. Existing studies suggest that QE metrics can also exhibit gender bias, yet most analyses are limited by small datasets, narrow occupational coverage, and restricted language variety. To address this gap, we introduce a large-scale challenge set specifically designed to probe the behavior of QE metrics when evaluating translations containing gender-ambiguous occupational terms. Building on the GAMBIT corpus of English texts with gender-ambiguous occupations, we extend coverage to three source languages that are genderless or natural-gendered, and eleven target languages with grammatical gender, resulting in 33 source-target language pairs. Each source text is paired with two target versions differing only in the grammatical gender of the occupational term(s) (masculine vs. feminine), with all dependent grammatical elements adjusted accordingly. An unbiased QE metric should assign equal or near-equal scores to both versions. The dataset's scale, breadth, and fully parallel design, where the same set of texts is aligned across all languages, enables fine-grained bias analysis by occupation and systematic comparisons across languages.
- Abstract(参考訳): 機械翻訳(MT)システムにおけるジェンダーバイアスは広範囲に記録されているが、自動品質推定(QE)メトリクスのバイアスは比較的過小評価されている。
既存の研究では、QEメトリクスは性別バイアスも示せるが、ほとんどの分析は小さなデータセット、狭い職業範囲、制限された言語多様性によって制限されている。
このギャップに対処するために、性別のあいまいな職業用語を含む翻訳を評価する際に、QEメトリクスの振る舞いを調査するための大規模な課題セットを導入する。
性別不明瞭な職業を持つ英語テキストのGAMBITコーパスに基づいて、ジェンダーレスまたは自然なジェンダーを持つ3つのソース言語と、文法的なジェンダーを持つ11のターゲット言語にカバー範囲を広げ、33のソースターゲット言語ペアを生成する。
各ソーステキストは、職業用語(男性対女性)の文法的性別にのみ異なる2つのターゲットバージョンとペアリングされ、すべての依存した文法的要素がそれに応じて調整される。
バイアスのないQEメトリックは、両方のバージョンに等しいスコアまたはほぼ等しいスコアを割り当てるべきである。
データセットのスケール、幅、完全に並列な設計では、同じテキストのセットがすべての言語にまたがっているため、職業や言語間の体系的な比較によって、きめ細かいバイアス分析が可能になる。
関連論文リスト
- EuroGEST: Investigating gender stereotypes in multilingual language models [58.871032460235575]
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - GFG -- Gender-Fair Generation: A CALAMITA Challenge [15.399739689743935]
ジェンダーフェア言語は、すべてのアイデンティティを含む用語と表現を使用することで、男女平等を促進することを目的としている。
ジェンダー・フェア・ジェネレーションの課題は、書面コミュニケーションにおけるジェンダー・フェア言語へのシフトを支援することである。
論文 参考訳(メタデータ) (2024-12-26T10:58:40Z) - Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation [28.01631390361754]
本稿では,QE指標の性別バイアスを定義し,検討する。
男性求心性翻訳は女性求心性翻訳よりも高く,性中立性翻訳はペナルティ化されている。
調査の結果は,ジェンダーを中心としたQE指標の開発と評価に新たな焦点をあてることの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-14T18:24:52Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。