論文の概要: Reducing Gender Bias in Machine Translation through Counterfactual Data
Generation
- arxiv url: http://arxiv.org/abs/2311.16362v1
- Date: Mon, 27 Nov 2023 23:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:05:51.067008
- Title: Reducing Gender Bias in Machine Translation through Counterfactual Data
Generation
- Title(参考訳): 逆データ生成による機械翻訳におけるジェンダーバイアスの低減
- Authors: Ranjita Naik, Spencer Rarrick, Vishal Chowdhary
- Abstract要約: 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳詞 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語
また,反実データ生成技術を用いて作成したドメイン内データを活用する新しいドメイン適応手法を提案する。
関連するコードはGithubで入手できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in neural methods have led to substantial improvement in the
quality of Neural Machine Translation (NMT) systems. However, these systems
frequently produce translations with inaccurate gender (Stanovsky et al.,
2019), which can be traced to bias in training data. Saunders and Byrne (2020)
tackle this problem with a handcrafted dataset containing balanced gendered
profession words. By using this data to fine-tune an existing NMT model, they
show that gender bias can be significantly mitigated, albeit at the expense of
translation quality due to catastrophic forgetting. They recover some of the
lost quality with modified training objectives or additional models at
inference. We find, however, that simply supplementing the handcrafted dataset
with a random sample from the base model training corpus is enough to
significantly reduce the catastrophic forgetting. We also propose a novel
domain-adaptation technique that leverages in-domain data created with the
counterfactual data generation techniques proposed by Zmigrod et al. (2019) to
further improve accuracy on the WinoMT challenge test set without significant
loss in translation quality. We show its effectiveness in NMT systems from
English into three morphologically rich languages French, Spanish, and Italian.
The relevant dataset and code will be available at Github.
- Abstract(参考訳): 近年のニューラルネットワーク手法の進歩により、ニューラルネットワーク翻訳(NMT)システムの品質が大幅に向上している。
しかし、これらのシステムは不正確な性別(stanovsky et al., 2019)による翻訳を頻繁に生成し、これはトレーニングデータのバイアスにさかのぼることができる。
Saunders and Byrne (2020)は、バランスのとれた専門用語を含む手作りのデータセットでこの問題に対処した。
このデータを用いて既存のNMTモデルを微調整することにより、破滅的な忘れ込みによる翻訳品質を犠牲にして、性別バイアスを著しく軽減できることを示す。
トレーニング目標の変更や推論時の追加モデルによって、失われた品質の一部を回復する。
しかし、手作りデータセットをベースモデルのトレーニングコーパスからランダムなサンプルで補うだけで、壊滅的な忘れ方を大幅に減らすことができることがわかった。
また,zmigrodら (2019) が提案する反事実データ生成手法を用いて作成したドメイン内データを利用して,翻訳品質を損なうことなく,winomtチャレンジテストセットの精度をさらに向上させる新しいドメイン適応手法を提案する。
英語からフランス語,スペイン語,イタリア語の3つの形態素豊かな言語へのnmtシステムでの有効性を示す。
関連するデータセットとコードはgithubで入手できる。
関連論文リスト
- Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - How sensitive are translation systems to extra contexts? Mitigating
gender bias in Neural Machine Translation models through relevant contexts [11.684346035745975]
ますます多くの研究が、ニューラルマシン翻訳モデルがトレーニング中に導入する固有の性バイアスを強調している。
そこで本研究では,これらのモデルに対して,対象とした指示をコンテキストとして,推論中にバイアスを修正するように指示できるかどうかを検討する。
3つの一般的なテストスイート間で、翻訳における性別バイアスの低減に関する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-05-22T06:31:54Z) - Mitigating Gender Bias in Machine Translation through Adversarial
Learning [0.8883733362171032]
本稿では,Seq2seq機械翻訳におけるジェンダーバイアスを軽減するための課題に対処する逆学習フレームワークを提案する。
本枠組みは,英語翻訳では86%,フランス語翻訳では91%,男性対女性文では86%の翻訳品質を向上する。
論文 参考訳(メタデータ) (2022-03-20T23:35:09Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - Can Automatic Post-Editing Improve NMT? [9.233407096706744]
自動後編集(APE)は機械翻訳の改善を目的としており、それによって人間の後編集の労力を減らす。
APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。
論文 参考訳(メタデータ) (2020-09-30T02:34:19Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - Reducing Gender Bias in Neural Machine Translation as a Domain
Adaptation Problem [21.44025591721678]
NLPタスクのトレーニングデータは、男性よりも女性に言及する文が少ないという性別バイアスを呈することが多い。
最近のWinoMTチャレンジセットでは、この効果を直接測定することができます。
私たちは、信頼できる性別バランスの例の小さなセットでトランスファーラーニングを使用します。
論文 参考訳(メタデータ) (2020-04-09T11:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。