論文の概要: Lego-MT: Towards Detachable Models in Massively Multilingual Machine
Translation
- arxiv url: http://arxiv.org/abs/2212.10551v1
- Date: Tue, 20 Dec 2022 18:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:01:09.676347
- Title: Lego-MT: Towards Detachable Models in Massively Multilingual Machine
Translation
- Title(参考訳): Lego-MT:多言語機械翻訳における分離可能なモデルを目指して
- Authors: Fei Yuan, Yinquan Lu, WenHao Zhu, Lingpeng Kong, Lei Li, Jingjing Xu
- Abstract要約: 従来の多言語ニューラルネットワーク翻訳(MNMT)は、すべての方向を翻訳するために単一のモデルを使用する。
各言語(グループ)ごとに個別のブランチを割り当てることで、マルチウェイ構造を再考する。
本稿では,異なるブランチを統一された空間にマッピングする局所的なトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 28.425206243875774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional multilingual neural machine translation (MNMT) uses a single
model to translate all directions. However, with the increasing scale of
language pairs, simply using a single model for massive MNMT brings new
challenges: parameter tension and large computations. In this paper, we revisit
multi-way structures by assigning an individual branch for each language
(group). Despite being a simple architecture, it is challenging to train
de-centralized models due to the lack of constraints to align representations
from all languages. We propose a localized training recipe to map different
branches into a unified space, resulting in an efficient detachable model,
Lego-MT. For a fair comparison, we collect data from OPUS and build the first
large-scale open-source translation benchmark covering 7 language-centric data,
each containing 445 language pairs. Experiments show that Lego-MT (1.2B) brings
gains of more than 4 BLEU while outperforming M2M-100 (12B) (We will public all
training data, models, and checkpoints)
- Abstract(参考訳): 従来の多言語ニューラルマシン翻訳(mnmt)は、すべての方向を単一のモデルで翻訳する。
しかし、言語ペアの規模が大きくなるにつれて、単一のモデルをMNMTの大規模化に使用するだけで、パラメータのテンションと大きな計算という新たな課題がもたらされる。
本稿では,各言語(グループ)に個別の分岐を割り当てることで,マルチウェイ構造を再検討する。
単純なアーキテクチャであるにもかかわらず、すべての言語からの表現を整合させる制約が欠如しているため、非分散モデルのトレーニングは困難である。
本稿では,異なるブランチを統一された空間にマッピングする局所的なトレーニング手法を提案する。
公平な比較のために,OPUSからデータを収集し,それぞれ445の言語ペアを含む7つの言語中心のデータをカバーする,最初の大規模オープンソース翻訳ベンチマークを構築した。
実験によると、lego-mt (1.2b) は4 bleu以上の利益をもたらし、m2m-100 (12b) を上回っている(トレーニングデータ、モデル、チェックポイントはすべて公開する)。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。