論文の概要: Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation
- arxiv url: http://arxiv.org/abs/2006.08881v1
- Date: Tue, 16 Jun 2020 02:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:57:00.727748
- Title: Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation
- Title(参考訳): 翻訳用モデル代名詞ジェンダーへのスケーラブルなクロスリンガル・ピボット
- Authors: Kellie Webster and Emily Pitler
- Abstract要約: 文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語に翻訳する際に誤りを犯す可能性がある。
高品質な性別ラベルを自動生成する新しい言語間ピボット手法を提案する。
- 参考スコア(独自算出の注目度): 4.775445987662862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine translation systems with inadequate document understanding can make
errors when translating dropped or neutral pronouns into languages with
gendered pronouns (e.g., English). Predicting the underlying gender of these
pronouns is difficult since it is not marked textually and must instead be
inferred from coreferent mentions in the context. We propose a novel
cross-lingual pivoting technique for automatically producing high-quality
gender labels, and show that this data can be used to fine-tune a BERT
classifier with 92% F1 for Spanish dropped feminine pronouns, compared with
30-51% for neural machine translation models and 54-71% for a non-fine-tuned
BERT model. We augment a neural machine translation model with labels from our
classifier to improve pronoun translation, while still having parallelizable
translation models that translate a sentence at a time.
- Abstract(参考訳): 文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語(英語など)に翻訳する際に誤りを犯すことがある。
これらの代名詞の根底にある性別を予測することは、テキスト的にマークされず、文脈の中核的な言及から推論する必要があるため困難である。
本研究では,高品質な性別ラベルを自動生成する新たな言語間ピボット手法を提案し,このデータを用いて,スペイン語のドロップした女性代名詞を92%F1で微調整し,ニューラルマシン翻訳モデルでは30~51%,非微調整BERTモデルでは54~71%とした。
分類器のラベル付きニューラルマシン翻訳モデルを拡張し,代名詞翻訳を改善しつつ,同時に文を翻訳する並列化可能な翻訳モデルも備えている。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - Generating Gender Augmented Data for NLP [3.5557219875516655]
ジェンダーバイアスは、NLPベースのアプリケーション、特に性差のある言語で頻繁に発生する。
本稿では,会話文の自動書き直し手法を提案する。
提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。
論文 参考訳(メタデータ) (2021-07-13T11:13:21Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - Repairing Pronouns in Translation with BERT-Based Post-Editing [7.6344611819427035]
いくつかの領域では、代名詞選択がNMTシステムのエラーの半数以上を占めることが示される。
次に、ソース側文のチャンクを使用して、代名詞予測タスクでBERTを微調整するソリューションを検討します。
論文 参考訳(メタデータ) (2021-03-23T21:01:03Z) - Neural Machine Translation Doesn't Translate Gender Coreference Right
Unless You Make It [18.148675498274866]
ニューラル・マシン・トランスフォーメーションに明示的な単語レベルのジェンダー・インフレクション・タグを組み込む手法を提案する。
既存の単純なアプローチは、文中の複数のエンティティにジェンダー・フィーチャーを過度に一般化することができる。
また,英語のジェンダーニュートラルな実体の翻訳を,それに対応する言語規則で評価する拡張も提案する。
論文 参考訳(メタデータ) (2020-10-11T20:05:42Z) - Transformer-GCRF: Recovering Chinese Dropped Pronouns with General
Conditional Random Fields [54.03719496661691]
本稿では,隣接する発話における代名詞間の依存関係をモデル化するために,トランスフォーマーネットワークの強みと一般条件ランダムフィールド(GCRF)を組み合わせる新しい枠組みを提案する。
3つの中国語会話データセットの結果、Transformer-GCRFモデルは、最先端のドロップした代名詞回復モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T07:06:09Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。