論文の概要: Direct Neural Machine Translation with Task-level Mixture of Experts
models
- arxiv url: http://arxiv.org/abs/2310.12236v1
- Date: Wed, 18 Oct 2023 18:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 18:16:58.058354
- Title: Direct Neural Machine Translation with Task-level Mixture of Experts
models
- Title(参考訳): タスクレベルの混合モデルを用いた直接ニューラルマシン翻訳
- Authors: Isidora Chara Tourni, Subhajit Naskar
- Abstract要約: ダイレクト・ニューラル・マシン・トランスレーション (Direct Neural Machine Translation, NMT) は、2つの非英語言語間のテキストを翻訳する。
Task-level Mixture of Expert Model (Task-level MoE)は、多数の言語ペアに対して有望なNMT性能を示す。
- 参考スコア(独自算出の注目度): 1.4576574741194925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct neural machine translation (direct NMT) is a type of NMT system that
translates text between two non-English languages. Direct NMT systems often
face limitations due to the scarcity of parallel data between non-English
language pairs. Several approaches have been proposed to address this
limitation, such as multilingual NMT and pivot NMT (translation between two
languages via English). Task-level Mixture of expert models (Task-level MoE),
an inference-efficient variation of Transformer-based models, has shown
promising NMT performance for a large number of language pairs. In Task-level
MoE, different language groups can use different routing strategies to optimize
cross-lingual learning and inference speed. In this work, we examine Task-level
MoE's applicability in direct NMT and propose a series of high-performing
training and evaluation configurations, through which Task-level MoE-based
direct NMT systems outperform bilingual and pivot-based models for a large
number of low and high-resource direct pairs, and translation directions. Our
Task-level MoE with 16 experts outperforms bilingual NMT, Pivot NMT models for
7 language pairs, while pivot-based models still performed better in 9 pairs
and directions.
- Abstract(参考訳): direct neural machine translation (direct nmt) は、2つの非英語言語間でテキストを翻訳するnmtシステムの一種である。
直接nmtシステムは、非英語の言語ペア間の並列データの不足により、しばしば制限を受ける。
この制限に対処するために、多言語NMTやピボットNMT(英語版)のようないくつかのアプローチが提案されている。
Task-level Mixture of Expert Model (Task-level MoE)は、Transformerベースのモデルの推論効率のばらつきであり、多数の言語ペアに対して有望なNMT性能を示す。
Task-level MoEでは、異なる言語グループが異なるルーティング戦略を使用して、言語間の学習と推論速度を最適化できる。
本研究では,タスクレベル MoE の直接 NMT 適用性について検討し,タスクレベル MoE に基づく直接 NMT システムは,多数の低リソースと高リソースの直接対,および翻訳方向に対してバイリンガルおよびピボットモデルより優れる一連の高パフォーマンストレーニングおよび評価構成を提案する。
16名の専門家によるタスクレベルMoEは、7つの言語ペアのバイリンガルNMT、Pivot NMTモデルよりも優れています。
関連論文リスト
- On Instruction-Finetuning Neural Machine Translation Models [13.801102065766777]
ニューラルネットワーク翻訳(NMT)モデルのための命令微調整を導入する。
我々の研究は、従来のNMTモデルの命令追従能力を示す最初のものの一つである。
論文 参考訳(メタデータ) (2024-10-07T23:26:13Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Data Selection Curriculum for Neural Machine Translation [31.55953464971441]
NMTモデルのための2段階のカリキュラムトレーニングフレームワークを提案する。
我々は、事前学習法とオンラインスコアを用いた決定論的スコアリングの両方によって選択されたデータのサブセットに基づいてベースNMTモデルを微調整する。
我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより高速な収束を示すことを示した。
論文 参考訳(メタデータ) (2022-03-25T19:08:30Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。