論文の概要: Lego-MT: Towards Detachable Models in Massively Multilingual Machine
Translation
- arxiv url: http://arxiv.org/abs/2212.10551v2
- Date: Mon, 29 May 2023 03:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:36:33.922487
- Title: Lego-MT: Towards Detachable Models in Massively Multilingual Machine
Translation
- Title(参考訳): Lego-MT:多言語機械翻訳における分離可能なモデルを目指して
- Authors: Fei Yuan, Yinquan Lu, WenHao Zhu, Lingpeng Kong, Lei Li, Yu Qiao,
Jingjing Xu
- Abstract要約: そこで我々は,Lego-MTを効果的に分離可能なモデルとして構築する,新しい効率的なトレーニングレシピを提案する。
実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。
提案したトレーニングレシピは、従来のマルチウェイトレーニング方法よりも28.2$times$のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 48.37939354609931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual neural machine translation (MNMT) aims to build a unified model
for many language directions. Existing monolithic models for MNMT encounter two
challenges: parameter interference among languages and inefficient inference
for large models. In this paper, we revisit the classic multi-way structures
and develop a detachable model by assigning each language (or group of
languages) to an individual branch that supports plug-and-play training and
inference. To address the needs of learning representations for all languages
in a unified space, we propose a novel efficient training recipe, upon which we
build an effective detachable model, Lego-MT. For a fair comparison, we collect
data from OPUS and build a translation benchmark covering 433 languages and
1.3B parallel data. Experiments show that Lego-MT with 1.2B parameters brings
an average gain of 3.2 spBLEU. It even outperforms M2M-100 with 12B parameters.
The proposed training recipe brings a 28.2$\times$ speedup over the
conventional multi-way training method.\footnote{
\url{https://github.com/CONE-MT/Lego-MT}.}
- Abstract(参考訳): 多言語ニューラルマシン翻訳(MNMT)は、多くの言語方向の統一モデルを構築することを目的としている。
MNMTの既存のモノリシックモデルは、言語間のパラメータ干渉と大規模モデルの非効率的な推論という2つの課題に直面する。
本稿では,従来のマルチウェイ構造を再検討し,各言語(あるいは言語群)をプラグ・アンド・プレイのトレーニングと推論をサポートする個々のブランチに割り当てることで,分離可能なモデルを開発する。
統一空間における全ての言語に対する学習表現の必要性に対処するために,我々は,効果的な分離可能なモデルであるLego-MTを構築した,新しい効率的なトレーニングレシピを提案する。
公平な比較のために,OPUSからデータを収集し,433言語と1.3B並列データを対象とした翻訳ベンチマークを構築した。
実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。
さらに12BパラメータでM2M-100を上回ります。
提案されたトレーニングレシピは、従来のマルチウェイトレーニングメソッドよりも28.2$\times$のスピードアップを提供する。
詳細はhttps://github.com/cone-mt/lego-mt}を参照。
}
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。