論文の概要: How to Split: the Effect of Word Segmentation on Gender Bias in Speech
Translation
- arxiv url: http://arxiv.org/abs/2105.13782v1
- Date: Fri, 28 May 2021 12:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:38:49.005008
- Title: How to Split: the Effect of Word Segmentation on Gender Bias in Speech
Translation
- Title(参考訳): how to split: the effect of word segmentation on gender bias in speech translation (特集 音声翻訳)
- Authors: Marco Gaido, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri, Marco
Turchi
- Abstract要約: 我々は、自動翻訳におけるジェンダーバイアスの分析を、一見中立的だが重要な要素である単語セグメンテーションに導入する。
2つの言語対(英語/イタリア語/フランス語)で得られた結果は、最先端のサブワード分割(BPE)が、ジェンダーバイアスの増大を犠牲にしていることを示している。
そこで本研究では,BPEの全体的な翻訳品質を向上すると同時に,文字ベースセグメンテーションの能力を活用し,ジェンダーを適切に翻訳する手法を提案する。
- 参考スコア(独自算出の注目度): 14.955696163410254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Having recognized gender bias as a major issue affecting current translation
technologies, researchers have primarily attempted to mitigate it by working on
the data front. However, whether algorithmic aspects concur to exacerbate
unwanted outputs remains so far under-investigated. In this work, we bring the
analysis on gender bias in automatic translation onto a seemingly neutral yet
critical component: word segmentation. Can segmenting methods influence the
ability to translate gender? Do certain segmentation approaches penalize the
representation of feminine linguistic markings? We address these questions by
comparing 5 existing segmentation strategies on the target side of speech
translation systems. Our results on two language pairs (English-Italian/French)
show that state-of-the-art sub-word splitting (BPE) comes at the cost of higher
gender bias. In light of this finding, we propose a combined approach that
preserves BPE overall translation quality, while leveraging the higher ability
of character-based segmentation to properly translate gender.
- Abstract(参考訳): 現在の翻訳技術に影響を及ぼす主要な問題として、男女の偏見を認識した研究者は、主にデータ分野に取り組んでそれを緩和しようと試みてきた。
しかし、不必要なアウトプットを悪化させるアルゴリズム的側面がまだ解明されていない。
本研究では,自動翻訳におけるジェンダーバイアスの分析を,一見中立的だが重要な要素である単語セグメンテーションに導入する。
セグメンテーションはジェンダーを翻訳する能力に影響を及ぼすか?
あるセグメンテーションアプローチは女性言語マークの表現をペナルティ化するか?
音声翻訳システムのターゲット側で,既存の5つのセグメンテーション戦略を比較することで,これらの疑問に答える。
2つの言語対(英語・イタリア語・フランス語)の結果、最先端の単語分割 (bpe) は高い性別バイアスのコストで得られることがわかった。
そこで本研究では,bpe全体の翻訳品質を保ちつつ,性別を適切に翻訳するキャラクタベースセグメンテーションの高機能化を両立させる手法を提案する。
関連論文リスト
- Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - Exploring the Impact of Training Data Distribution and Subword
Tokenization on Gender Bias in Machine Translation [19.719314005149883]
機械翻訳における性別バイアスに対するトークン化の効果について検討する。
職業名の女性および非ステレオタイプ性差は、サブワードトークンに分割される傾向にある。
その結果, 単語分割の分析は, トレーニングデータにおける性別形態の不均衡の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-21T21:21:55Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Neural Machine Translation Doesn't Translate Gender Coreference Right
Unless You Make It [18.148675498274866]
ニューラル・マシン・トランスフォーメーションに明示的な単語レベルのジェンダー・インフレクション・タグを組み込む手法を提案する。
既存の単純なアプローチは、文中の複数のエンティティにジェンダー・フィーチャーを過度に一般化することができる。
また,英語のジェンダーニュートラルな実体の翻訳を,それに対応する言語規則で評価する拡張も提案する。
論文 参考訳(メタデータ) (2020-10-11T20:05:42Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。