論文の概要: Complete Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10239v1
- Date: Tue, 20 Oct 2020 13:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:02:19.090366
- Title: Complete Multilingual Neural Machine Translation
- Title(参考訳): 完全多言語ニューラルマシン翻訳
- Authors: Markus Freitag, Orhan Firat
- Abstract要約: 本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
- 参考スコア(独自算出の注目度): 44.98358050355681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual Neural Machine Translation (MNMT) models are commonly trained on
a joint set of bilingual corpora which is acutely English-centric (i.e. English
either as the source or target language). While direct data between two
languages that are non-English is explicitly available at times, its use is not
common. In this paper, we first take a step back and look at the commonly used
bilingual corpora (WMT), and resurface the existence and importance of implicit
structure that existed in it: multi-way alignment across examples (the same
sentence in more than two languages). We set out to study the use of multi-way
aligned examples to enrich the original English-centric parallel corpora. We
reintroduce this direct parallel data from multi-way aligned corpora between
all source and target languages. By doing so, the English-centric graph expands
into a complete graph, every language pair being connected. We call MNMT with
such connectivity pattern complete Multilingual Neural Machine Translation
(cMNMT) and demonstrate its utility and efficacy with a series of experiments
and analysis. In combination with a novel training data sampling strategy that
is conditioned on the target language only, cMNMT yields competitive
translation quality for all language pairs. We further study the size effect of
multi-way aligned data, its transfer learning capabilities and how it eases
adding a new language in MNMT. Finally, we stress test cMNMT at scale and
demonstrate that we can train a cMNMT model with up to 111*112=12,432 language
pairs that provides competitive translation quality for all language pairs.
- Abstract(参考訳): 多言語ニューラルマシン翻訳(mnmt)モデルは、英語中心(英語をソースまたはターゲット言語として)の2言語コーパスの共同セットで一般的に訓練される。
英語以外の2つの言語間の直接データは、時に明示的に利用できるが、その使用は一般的ではない。
本稿では、まずまず、よく使われるバイリンガルコーパス(WMT)を振り返り、その中に存在している暗黙構造の存在と重要性を再考する:例間の多方向アライメント(2言語以上で同じ文)。
私たちは、英語中心の並列コーパスを豊かにするために、マルチウェイアライメントの例を使う方法の研究に着手しました。
我々は、この直接並列データを、すべてのソース言語とターゲット言語の間のマルチウェイアラインコーパスから再導入する。
そうすることで、英語中心のグラフは完全なグラフへと拡張され、すべての言語ペアが接続される。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼び、その有用性と有効性を一連の実験と分析で実証する。
対象言語のみを条件とした新たなトレーニングデータサンプリング戦略と組み合わせることで、cmnmtはすべての言語ペアの競合翻訳品質が得られる。
さらに,マルチウェイアライメントデータのサイズ効果,転送学習能力,MNMTにおける新たな言語追加の容易性について検討する。
最後に、cMNMTを大規模にテストし、最大111*112=12,432言語ペアでcMNMTモデルをトレーニングし、全ての言語ペアに対して競合翻訳品質を提供することを示した。
関連論文リスト
- Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。