論文の概要: Facebook AI WMT21 News Translation Task Submission
- arxiv url: http://arxiv.org/abs/2108.03265v1
- Date: Fri, 6 Aug 2021 18:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:38:56.984152
- Title: Facebook AI WMT21 News Translation Task Submission
- Title(参考訳): Facebook AI WMT21ニュース翻訳タスクの提出
- Authors: Chau Tran, Shruti Bhosale, James Cross, Philipp Koehn, Sergey Edunov,
Angela Fan
- Abstract要約: ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語指導に参加します。
利用可能なすべてのソースからのデータを利用して、高品質なバイリンガルベースラインとマルチリンガルベースラインを作成します。
- 参考スコア(独自算出の注目度): 23.69817809546458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe Facebook's multilingual model submission to the WMT2021 shared
task on news translation. We participate in 14 language directions: English to
and from Czech, German, Hausa, Icelandic, Japanese, Russian, and Chinese. To
develop systems covering all these directions, we focus on multilingual models.
We utilize data from all available sources --- WMT, large-scale data mining,
and in-domain backtranslation --- to create high quality bilingual and
multilingual baselines. Subsequently, we investigate strategies for scaling
multilingual model size, such that one system has sufficient capacity for high
quality representations of all eight languages. Our final submission is an
ensemble of dense and sparse Mixture-of-Expert multilingual translation models,
followed by finetuning on in-domain news data and noisy channel reranking.
Compared to previous year's winning submissions, our multilingual system
improved the translation quality on all language directions, with an average
improvement of 2.0 BLEU. In the WMT2021 task, our system ranks first in 10
directions based on automatic evaluation.
- Abstract(参考訳): ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。
我々は、チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語方向に参加している。
これらすべての方向をカバーするシステムを開発するために,多言語モデルに焦点をあてる。
wmt、大規模データマイニング、ドメイン内バックトランスレーションといった、利用可能なすべてのソースからのデータを使用して、高品質なバイリンガルおよび多言語ベースラインを作成します。
次に,8言語すべてで高品質な表現に十分な能力を持つような多言語モデルサイズをスケールするための戦略を検討する。
最終提出は密集した多言語翻訳モデルの集合であり、その後、ドメイン内のニュースデータとノイズチャネルの再分類を行った。
前年度の受賞者と比較して,多言語システムは全言語方向の翻訳品質が向上し,平均2.0 bleuが向上した。
WMT2021タスクでは,自動評価に基づいて10方向にランク付けする。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。