論文の概要: DEEP: DEnoising Entity Pre-training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2111.07393v1
- Date: Sun, 14 Nov 2021 17:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:52:39.067983
- Title: DEEP: DEnoising Entity Pre-training for Neural Machine Translation
- Title(参考訳): deep: ニューラルマシン翻訳のためのエンティティ事前トレーニング
- Authors: Junjie Hu, Hiroaki Hayashi, Kyunghyun Cho, Graham Neubig
- Abstract要約: 機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
- 参考スコア(独自算出の注目度): 123.6686940355937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been shown that machine translation models usually generate poor
translations for named entities that are infrequent in the training corpus.
Earlier named entity translation methods mainly focus on phonetic
transliteration, which ignores the sentence context for translation and is
limited in domain and language coverage. To address this limitation, we propose
DEEP, a DEnoising Entity Pre-training method that leverages large amounts of
monolingual data and a knowledge base to improve named entity translation
accuracy within sentences. Besides, we investigate a multi-task learning
strategy that finetunes a pre-trained neural machine translation model on both
entity-augmented monolingual data and parallel data to further improve entity
translation. Experimental results on three language pairs demonstrate that
\method results in significant improvements over strong denoising auto-encoding
baselines, with a gain of up to 1.3 BLEU and up to 9.2 entity accuracy points
for English-Russian translation.
- Abstract(参考訳): 機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
初期の名前付きエンティティ翻訳は、主に翻訳の文文脈を無視し、ドメインや言語のカバレッジに制限がある音素翻訳に焦点を当てていた。
この制限に対処するために,大量のモノリンガルデータと知識ベースを活用するDenoising Entity Pre-training法であるDEEPを提案し,文中の名前付きエンティティ翻訳精度を向上させる。
さらに,エンティティ拡張単言語データと並列データの両方に基づいて,事前学習されたニューラルネットワーク翻訳モデルを微調整し,エンティティ翻訳をさらに改善するマルチタスク学習戦略を検討する。
3つの言語ペアの実験の結果、\method は、英語とロシア語の翻訳において最大 1.3 bleu と 9.2 のエンティティ精度ポイントを持つ強力な自動エンコーディングベースラインよりも大幅に改善されていることが示されている。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Extract and Attend: Improving Entity Translation in Neural Machine
Translation [141.7840980565706]
NMTにおけるエンティティ翻訳を強化するための抽出・アテンド手法を提案する。
提案手法は,エンティティの翻訳精度と全体的な翻訳品質の向上に有効である。
論文 参考訳(メタデータ) (2023-06-04T03:05:25Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Unsupervised Neural Machine Translation with Generative Language Models
Only [19.74865387759671]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。
本手法は, 数発増幅, 蒸留, 逆翻訳の3段階からなる。
論文 参考訳(メタデータ) (2021-10-11T17:35:34Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。