論文の概要: Zero-pronoun Data Augmentation for Japanese-to-English Translation
- arxiv url: http://arxiv.org/abs/2107.00318v1
- Date: Thu, 1 Jul 2021 09:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 20:36:13.776028
- Title: Zero-pronoun Data Augmentation for Japanese-to-English Translation
- Title(参考訳): 日英翻訳のためのゼロ名詞データ拡張
- Authors: Ryokan Ri, Toshiaki Nakazawa and Yoshimasa Tsuruoka
- Abstract要約: 本研究では,局所文脈とゼロ代名詞の相関関係を学習するために,翻訳モデルに付加的な訓練信号を提供するデータ拡張手法を提案する。
提案手法は,会話領域における機械翻訳実験によるゼロ代名詞翻訳の精度を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 15.716533830931764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For Japanese-to-English translation, zero pronouns in Japanese pose a
challenge, since the model needs to infer and produce the corresponding pronoun
in the target side of the English sentence. However, although fully resolving
zero pronouns often needs discourse context, in some cases, the local context
within a sentence gives clues to the inference of the zero pronoun. In this
study, we propose a data augmentation method that provides additional training
signals for the translation model to learn correlations between local context
and zero pronouns. We show that the proposed method significantly improves the
accuracy of zero pronoun translation with machine translation experiments in
the conversational domain.
- Abstract(参考訳): 日本語訳では、日本語のゼロ代名詞は英語文のターゲット側で対応する代名詞を推論・生成する必要があるため、難題となる。
しかしながら、ゼロ代名詞を完全に解決するには、しばしば談話の文脈を必要とするが、ある文の中の局所的な文脈はゼロ代名詞の推論の手がかりを与える。
本研究では,局所文脈とゼロ代名詞の相関関係を学習するために,翻訳モデルに付加的な訓練信号を提供するデータ拡張手法を提案する。
提案手法は,会話領域における機械翻訳実験によるゼロ代名詞翻訳の精度を大幅に向上することを示す。
関連論文リスト
- Investigating Markers and Drivers of Gender Bias in Machine Translations [0.0]
大型言語モデル(LLM)におけるインプシット性バイアスは、文書化された問題である。
我々は、DeepL翻訳APIを使用して、56のソフトウェアエンジニアリングタスクを繰り返し翻訳する際に生じるバイアスを調査する。
いくつかの言語は、類似した代名詞の使用パターンを示し、3つの緩いグループに分類する。
文中に出現する主動詞は,翻訳における意味のあるジェンダーの要因である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-18T15:54:46Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets [13.32560004325655]
クラウドソーシングのイニシアチブは、自然言語処理(NLP)に使用される大規模でオープンなデータセットの多言語翻訳に重点を置いている。
本研究は,クラウドソース型タトエバデータベースにおいて,英語と日本語で翻訳された代名詞の事例に着目した。
男性代名詞の偏見は,複数の言語が他の方法で説明されているにもかかわらず,全体として存在することがわかった。
論文 参考訳(メタデータ) (2023-04-22T09:27:32Z) - Data Augmentation Methods for Anaphoric Zero Pronouns [8.732165992971545]
我々は5つのデータ拡張法を用いて自動でアナフォリックゼロ代名詞を生成・検出する。
アラビア語に対する2つのアナフォリックゼロ代名詞システムのための追加のトレーニング材料として、拡張データを使用する。
論文 参考訳(メタデータ) (2021-09-20T20:16:01Z) - Exophoric Pronoun Resolution in Dialogues with Topic Regularization [84.23706744602217]
代名詞を参照語に分解することは、長い間、基礎的な自然言語理解問題として研究されてきた。
代名詞仲裁解決法(PCR)に関するこれまでの研究は、概ね、エクソフォリックなシナリオを無視しながら、テキストで言及する代名詞を解消することに焦点を当てていた。
本稿では,会話の局所的文脈とグローバルな話題を協調的に活用して,アウト・オブ・テクスチャPCRの問題を解決することを提案する。
論文 参考訳(メタデータ) (2021-09-10T11:08:31Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - Repairing Pronouns in Translation with BERT-Based Post-Editing [7.6344611819427035]
いくつかの領域では、代名詞選択がNMTシステムのエラーの半数以上を占めることが示される。
次に、ソース側文のチャンクを使用して、代名詞予測タスクでBERTを微調整するソリューションを検討します。
論文 参考訳(メタデータ) (2021-03-23T21:01:03Z) - Transformer-GCRF: Recovering Chinese Dropped Pronouns with General
Conditional Random Fields [54.03719496661691]
本稿では,隣接する発話における代名詞間の依存関係をモデル化するために,トランスフォーマーネットワークの強みと一般条件ランダムフィールド(GCRF)を組み合わせる新しい枠組みを提案する。
3つの中国語会話データセットの結果、Transformer-GCRFモデルは、最先端のドロップした代名詞回復モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T07:06:09Z) - Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation [4.775445987662862]
文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語に翻訳する際に誤りを犯す可能性がある。
高品質な性別ラベルを自動生成する新しい言語間ピボット手法を提案する。
論文 参考訳(メタデータ) (2020-06-16T02:41:46Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。