論文の概要: Repairing Pronouns in Translation with BERT-Based Post-Editing
- arxiv url: http://arxiv.org/abs/2103.12838v2
- Date: Thu, 25 Mar 2021 13:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 11:02:44.629162
- Title: Repairing Pronouns in Translation with BERT-Based Post-Editing
- Title(参考訳): BERT-based Post-Editing による代名詞の修復
- Authors: Reid Pryzant, Melvin Johnson, Hideto Kazawa
- Abstract要約: いくつかの領域では、代名詞選択がNMTシステムのエラーの半数以上を占めることが示される。
次に、ソース側文のチャンクを使用して、代名詞予測タスクでBERTを微調整するソリューションを検討します。
- 参考スコア(独自算出の注目度): 7.6344611819427035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pronouns are important determinants of a text's meaning but difficult to
translate. This is because pronoun choice can depend on entities described in
previous sentences, and in some languages pronouns may be dropped when the
referent is inferrable from the context. These issues can lead Neural Machine
Translation (NMT) systems to make critical errors on pronouns that impair
intelligibility and even reinforce gender bias. We investigate the severity of
this pronoun issue, showing that (1) in some domains, pronoun choice can
account for more than half of a NMT systems' errors, and (2) pronouns have a
disproportionately large impact on perceived translation quality. We then
investigate a possible solution: fine-tuning BERT on a pronoun prediction task
using chunks of source-side sentences, then using the resulting classifier to
repair the translations of an existing NMT model. We offer an initial case
study of this approach for the Japanese-English language pair, observing that a
small number of translations are significantly improved according to human
evaluators.
- Abstract(参考訳): 名詞はテキストの意味の重要な決定要因であるが、翻訳が難しい。
これは、代名詞の選択が前の文で記述されたエンティティに依存することができ、一部の言語では、参照が文脈から推測できないときに代名詞をドロップできるためである。
これらの問題は、神経機械翻訳(NMT)システムに、不明瞭さを損なうこと、さらには性バイアスを補強する代名詞に重大なエラーを与える可能性がある。
本稿では,(1)一部の領域において,代名詞選択がnmtシステムの誤差の半分以上を占めること,(2)代名詞が認識される翻訳品質に不釣り合いに大きな影響を与えること,など,代名詞問題の重大性について検討する。
提案手法は,情報源側文のチャンクを用いて代名詞予測タスクを微調整し,その結果の分類器を用いて既存のNMTモデルの翻訳を修復する。
日本語と英語のペアに対して,この手法の最初の事例研究を行い,人間の評価値によって少数の翻訳が著しく改善されていることを観察した。
関連論文リスト
- Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Extract and Attend: Improving Entity Translation in Neural Machine
Translation [141.7840980565706]
NMTにおけるエンティティ翻訳を強化するための抽出・アテンド手法を提案する。
提案手法は,エンティティの翻訳精度と全体的な翻訳品質の向上に有効である。
論文 参考訳(メタデータ) (2023-06-04T03:05:25Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - How sensitive are translation systems to extra contexts? Mitigating
gender bias in Neural Machine Translation models through relevant contexts [11.684346035745975]
ますます多くの研究が、ニューラルマシン翻訳モデルがトレーニング中に導入する固有の性バイアスを強調している。
そこで本研究では,これらのモデルに対して,対象とした指示をコンテキストとして,推論中にバイアスを修正するように指示できるかどうかを検討する。
3つの一般的なテストスイート間で、翻訳における性別バイアスの低減に関する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-05-22T06:31:54Z) - Mitigating Gender Bias in Machine Translation through Adversarial
Learning [0.8883733362171032]
本稿では,Seq2seq機械翻訳におけるジェンダーバイアスを軽減するための課題に対処する逆学習フレームワークを提案する。
本枠組みは,英語翻訳では86%,フランス語翻訳では91%,男性対女性文では86%の翻訳品質を向上する。
論文 参考訳(メタデータ) (2022-03-20T23:35:09Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation [4.775445987662862]
文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語に翻訳する際に誤りを犯す可能性がある。
高品質な性別ラベルを自動生成する新しい言語間ピボット手法を提案する。
論文 参考訳(メタデータ) (2020-06-16T02:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。