論文の概要: ConGA: Guidelines for Contextual Gender Annotation. A Framework for Annotating Gender in Machine Translation
- arxiv url: http://arxiv.org/abs/2603.17962v1
- Date: Wed, 18 Mar 2026 17:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.856139
- Title: ConGA: Guidelines for Contextual Gender Annotation. A Framework for Annotating Gender in Machine Translation
- Title(参考訳): ConGA: 文脈的ジェンダーアノテーションのガイドライン : 機械翻訳におけるジェンダーアノテーションフレームワーク
- Authors: Argentina Anna Rescigno, Eva Vanmassenhove, Johanna Monti,
- Abstract要約: 言語間のジェンダーの扱いは、機械翻訳にとって依然として永続的な課題である。
英語は文法的性別を省略するが、イタリア語は複数の文法的カテゴリーで明示的な合意を必要とする。
本稿では,単語レベルのジェンダーアノテーションを言語的に規定したガイドラインセットであるContextual Gender Textual (ConGA) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.962211505591938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handling gender across languages remains a persistent challenge for Machine Translation (MT) and Large Language Models (LLMs), especially when translating from gender-neutral languages into morphologically gendered ones, such as English to Italian. English largely omits grammatical gender, while Italian requires explicit agreement across multiple grammatical categories. This asymmetry often leads MT systems to default to masculine forms, reinforcing bias and reducing translation accuracy. To address this issue, we present the Contextual Gender Annotation (ConGA) framework, a linguistically grounded set of guidelines for word-level gender annotation. The scheme distinguishes between semantic gender in English through three tags, Masculine (M), Feminine (F), and Ambiguous (A), and grammatical gender realisation in Italian (Masculine (M), Feminine (F)), combined with entity-level identifiers for cross-sentence tracking. We apply ConGA to the gENder-IT dataset, creating a gold-standard resource for evaluating gender bias in translation. Our results reveal systematic masculine overuse and inconsistent feminine realisation, highlighting persistent limitations of current MT systems. By combining fine-grained linguistic annotation with quantitative evaluation, this work offers both a methodology and a benchmark for building more gender-aware and multilingual NLP systems.
- Abstract(参考訳): 言語間のジェンダーの扱いは機械翻訳(MT)と大規模言語モデル(LLMs)にとって永続的な課題であり、特にジェンダーニュートラル言語から、英語からイタリア語など、形態学的にジェンダー化された言語に翻訳する場合である。
英語は文法的性別を省略するが、イタリア語は複数の文法的カテゴリーで明示的な合意を必要とする。
この非対称性は、MT系をデフォルトで男性型にし、バイアスを補強し、翻訳精度を低下させる。
この問題に対処するため,言語的に根ざした単語レベルのジェンダーアノテーションのガイドラインセットであるContextual Gender Annotation (ConGA) フレームワークを提案する。
このスキームは、3つのタグ(Masculine (M)、Feminine (F)、Ambiguous (A))と、イタリア語(Masculine (M)、Feminine (F))の文法的ジェンダー実現と、クロスセンストラッキングのためのエンティティレベルの識別子を組み合わせて区別する。
我々は、gENder-ITデータセットにConGAを適用し、翻訳における性別バイアスを評価するためのゴールドスタンダードリソースを作成する。
以上の結果から,現在のMTシステムの持続的限界を浮き彫りにして,体系的な男性用過剰使用と女性用不整合性の実現を明らかにした。
詳細な言語アノテーションと定量的評価を組み合わせることで、より性別対応のNLPシステムを構築するための方法論とベンチマークを提供する。
関連論文リスト
- Gender Bias in MT for a Genderless Language: New Benchmarks for Basque [1.1419092834574525]
バスク語を含む翻訳において、性別バイアスを評価するための2つの新しいデータセットを導入する。
大規模言語モデル (LLM) と機械翻訳システム (MT) の評価を行った。
論文 参考訳(メタデータ) (2026-03-09T09:35:55Z) - EuroGEST: Investigating gender stereotypes in multilingual language models [58.871032460235575]
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - Assumed Identities: Quantifying Gender Bias in Machine Translation of Gender-Ambiguous Occupational Terms [12.568906647547815]
GRAPEは、性別バイアスを評価するための確率ベースの指標である。
GAMBITは、性別のあいまいな職業用語を持つ英語のベンチマークデータセットである。
GRAPEを用いて、いくつかのMTシステムを評価し、ギリシャ語とフランス語の性別による翻訳が社会的ステレオタイプと一致しているか、あるいは相違するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T12:16:14Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender Neutralization for an Inclusive Machine Translation: from
Theoretical Foundations to Open Challenges [11.37307883423629]
我々は,ジェンダー・ニュートラル・トランスフォーメーション(GNT)をジェンダー・インクリシティーの一形態として検討し,マシン・トランスフォーメーション(MT)モデルによって達成される目標について検討する。
具体的には、ジェンダー関連言語移行問題を表す言語対である、英語からイタリア語への翻訳に焦点を当てる。
論文 参考訳(メタデータ) (2023-01-24T15:26:36Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Neural Machine Translation Doesn't Translate Gender Coreference Right
Unless You Make It [18.148675498274866]
ニューラル・マシン・トランスフォーメーションに明示的な単語レベルのジェンダー・インフレクション・タグを組み込む手法を提案する。
既存の単純なアプローチは、文中の複数のエンティティにジェンダー・フィーチャーを過度に一般化することができる。
また,英語のジェンダーニュートラルな実体の翻訳を,それに対応する言語規則で評価する拡張も提案する。
論文 参考訳(メタデータ) (2020-10-11T20:05:42Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。