論文の概要: GATE X-E : A Challenge Set for Gender-Fair Translations from
Weakly-Gendered Languages
- arxiv url: http://arxiv.org/abs/2402.14277v1
- Date: Thu, 22 Feb 2024 04:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:35:52.392011
- Title: GATE X-E : A Challenge Set for Gender-Fair Translations from
Weakly-Gendered Languages
- Title(参考訳): GATE X-E : 弱性言語からのジェンダー・フェア翻訳への挑戦
- Authors: Spencer Rarrick, Ranjita Naik, Sundar Poudel, Vishal Chowdhary
- Abstract要約: 我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-4で構築した翻訳性書換えソリューションをGATE X-Eを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) continues to improve in quality and
adoption, yet the inadvertent perpetuation of gender bias remains a significant
concern. Despite numerous studies on gender bias in translations into English
from weakly gendered-languages, there are no benchmarks for evaluating this
phenomenon or for assessing mitigation strategies. To address this gap, we
introduce GATE X-E, an extension to the GATE (Rarrick et al., 2023) corpus,
that consists of human translations from Turkish, Hungarian, Finnish, and
Persian into English. Each translation is accompanied by feminine, masculine,
and neutral variants. The dataset, which contains between 1250 and 1850
instances for each of the four language pairs, features natural sentences with
a wide range of sentence lengths and domains, challenging translation rewriters
on various linguistic phenomena. Additionally, we present a translation gender
rewriting solution built with GPT-4 and use GATE X-E to evaluate it. We open
source our contributions to encourage further research on gender debiasing.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)は、品質と採用の改善を続けているが、性別バイアスの不注意な永続性は、依然として重要な懸念点である。
弱性言語からの英語への翻訳における男女差に関する多くの研究にもかかわらず、この現象の評価や緩和戦略の評価のためのベンチマークは存在しない。
このギャップに対処するため、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATE(Rarrick et al., 2023)コーパスの拡張であるGATE X-Eを導入する。
各翻訳には女性、男性、中立の変種が伴っている。
4つの言語ペアごとに1250から1850のインスタンスを含むこのデータセットは、幅広い文の長さと領域を持つ自然な文を特徴とし、様々な言語現象に関する翻訳書き換えに挑戦する。
また,GPT-4で構築したGATE X-Eを用いた翻訳性書き換えソリューションを提案する。
我々は、ジェンダーデバイアスに関するさらなる研究を促進するために、コントリビューションをオープンソースにしています。
関連論文リスト
- The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Significance of Chain of Thought in Gender Bias Mitigation for English-Dravidian Machine Translation [6.200058263544999]
本稿では,Dravidian family の Telugu や Kan-nada などの言語に対する機械翻訳システムにおける性別バイアスについて検討する。
複数の形式はバイアスを減らすことができるが、個人中心の文は多くの場合、歴史的ステレオタイプによるバイアスを主とする。
論文 参考訳(メタデータ) (2024-05-30T05:26:57Z) - Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Multilingual Holistic Bias: Extending Descriptors and Patterns to Unveil
Demographic Biases in Languages at Scale [0.21079694661943604]
この拡張は、20,459の文からなる。
我々のベンチマークは、人口動態の不均衡を明らかにすることを目的としており、それらに対する緩和を定量化するためのツールである。
論文 参考訳(メタデータ) (2023-05-22T16:29:04Z) - GATE: A Challenge Set for Gender-Ambiguous Translation Examples [0.31498833540989407]
ソースの性別が曖昧である場合、機械翻訳モデルは、通常、ステレオタイプなジェンダーロールにデフォルトされ、有害なバイアスが持続する。
最近の研究は、このような曖昧な入力に対して代替性翻訳を生成する「ジェンダーリフレクタ」の開発に繋がっているが、そのようなシステムは言語に乏しい範囲で悩まされている。
我々は、ジェンダー・あいまいなソース文の言語学的に多様なコーパスであるGATEと、複数の代替ターゲット言語翻訳を提示、リリースする。
論文 参考訳(メタデータ) (2023-03-07T15:23:38Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。