論文の概要: Exploring the Impact of Training Data Distribution and Subword
Tokenization on Gender Bias in Machine Translation
- arxiv url: http://arxiv.org/abs/2309.12491v2
- Date: Sat, 30 Sep 2023 19:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 12:48:53.660066
- Title: Exploring the Impact of Training Data Distribution and Subword
Tokenization on Gender Bias in Machine Translation
- Title(参考訳): 機械翻訳における学習データ分布と語尾トークン化が性別バイアスに及ぼす影響の検討
- Authors: Bar Iluz, Tomasz Limisiewicz, Gabriel Stanovsky, David Mare\v{c}ek
- Abstract要約: 機械翻訳における性別バイアスに対するトークン化の効果について検討する。
職業名の女性および非ステレオタイプ性差は、サブワードトークンに分割される傾向にある。
その結果, 単語分割の分析は, トレーニングデータにおける性別形態の不均衡の予測に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 19.719314005149883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the effect of tokenization on gender bias in machine translation, an
aspect that has been largely overlooked in previous works. Specifically, we
focus on the interactions between the frequency of gendered profession names in
training data, their representation in the subword tokenizer's vocabulary, and
gender bias. We observe that female and non-stereotypical gender inflections of
profession names (e.g., Spanish "doctora" for "female doctor") tend to be split
into multiple subword tokens. Our results indicate that the imbalance of gender
forms in the model's training corpus is a major factor contributing to gender
bias and has a greater impact than subword splitting. We show that analyzing
subword splits provides good estimates of gender-form imbalance in the training
data and can be used even when the corpus is not publicly available. We also
demonstrate that fine-tuning just the token embedding layer can decrease the
gap in gender prediction accuracy between female and male forms without
impairing the translation quality.
- Abstract(参考訳): 本稿では,トークン化が機械翻訳における性別バイアスに与える影響について検討する。
具体的には、訓練データにおける性別付き職業名の頻度、サブワードトークンの語彙における表現、性別バイアスの相互作用に焦点を当てる。
我々は、職業名(スペイン語で「女性医師」を意味するdoctoraなど)の女性と非ステレオタイプ性差は、複数のサブワードトークンに分割される傾向があることを観察する。
以上の結果から,モデルのトレーニングコーパスにおけるジェンダーフォームの不均衡は,ジェンダーバイアスに寄与する主要な要因であり,サブワード分割よりも大きな影響があることが示唆された。
サブワード分割の分析は、トレーニングデータにおける性別形態の不均衡を適切に推定し、コーパスが公開されていない場合でも使用できることを示す。
また,トークン埋め込み層のみを微調整することで,翻訳品質を損なうことなく男女間の性別予測精度の差を低減できることを示した。
関連論文リスト
- Evaluating Gender Bias in Large Language Models [0.8636148452563583]
本研究では,大規模言語モデル (LLMs) が職業文脈における代名詞選択における性別バイアスの程度について検討した。
対象とする職業は、男性に有意な存在感を持つものから女性に有意な集中力を持つものまで幅広い。
その結果, モデルの代名詞選択と, 労働力データに存在する性別分布との間には, 正の相関関係が認められた。
論文 参考訳(メタデータ) (2024-11-14T22:23:13Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender, names and other mysteries: Towards the ambiguous for
gender-inclusive translation [7.322734499960981]
本稿では,元文が明示的なジェンダーマーカーを欠いている場合について考察するが,目的文はより豊かな文法的ジェンダーによってそれらを含む。
MTデータ中の多くの名前と性別の共起は、ソース言語の「あいまいな性別」で解決できないことがわかった。
ジェンダー・インクルージョンの両面での曖昧さを受け入れるジェンダー・インクルージョン・トランスフォーメーションの可能性について論じる。
論文 参考訳(メタデータ) (2023-06-07T16:21:59Z) - How to Split: the Effect of Word Segmentation on Gender Bias in Speech
Translation [14.955696163410254]
我々は、自動翻訳におけるジェンダーバイアスの分析を、一見中立的だが重要な要素である単語セグメンテーションに導入する。
2つの言語対(英語/イタリア語/フランス語)で得られた結果は、最先端のサブワード分割(BPE)が、ジェンダーバイアスの増大を犠牲にしていることを示している。
そこで本研究では,BPEの全体的な翻訳品質を向上すると同時に,文字ベースセグメンテーションの能力を活用し,ジェンダーを適切に翻訳する手法を提案する。
論文 参考訳(メタデータ) (2021-05-28T12:38:21Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。