論文の概要: SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2210.11621v1
- Date: Thu, 20 Oct 2022 22:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:14:54.283756
- Title: SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages
- Title(参考訳): SMaLL-100:低リソース言語のための浅層多言語機械翻訳モデルの導入
- Authors: Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline
Brun, James Henderson, Laurent Besacier
- Abstract要約: 本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
- 参考スコア(独自算出の注目度): 102.50127671423752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, multilingual machine translation models have achieved
promising performance on low-resource language pairs by sharing information
between similar languages, thus enabling zero-shot translation. To overcome the
"curse of multilinguality", these models often opt for scaling up the number of
parameters, which makes their use in resource-constrained environments
challenging. We introduce SMaLL-100, a distilled version of the M2M-100 (12B)
model, a massively multilingual machine translation model covering 100
languages. We train SMaLL-100 with uniform sampling across all language pairs
and therefore focus on preserving the performance of low-resource languages. We
evaluate SMaLL-100 on different low-resource benchmarks: FLORES-101, Tatoeba,
and TICO-19 and demonstrate that it outperforms previous massively multilingual
models of comparable sizes (200-600M) while improving inference latency and
memory usage. Additionally, our model achieves comparable results to M2M-100
(1.2B), while being 3.6x smaller and 4.3x faster at inference. Code and
pre-trained models: https://github.com/alirezamshi/small100
- Abstract(参考訳): 近年、多言語機械翻訳モデルは、類似言語間の情報共有により、低リソース言語対で有望な性能を達成し、ゼロショット翻訳を可能にしている。
多言語性の問題」を克服するために、これらのモデルはしばしばパラメータ数を増加させることを選択し、リソース制約のある環境での使用を困難にしている。
本稿では,100言語をカバーする多言語機械翻訳モデルであるM2M-100 (12B) の蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
FLORES-101, Tatoeba, TICO-19の2つの低リソースベンチマークでSMaLL-100を評価し, 推論遅延とメモリ使用量の改善を図りながら, 比較可能なサイズ (200-600M) の多言語モデルよりも優れていることを示した。
さらに,本モデルではM2M-100 (1.2B) に匹敵する結果を得た。
コードと事前学習されたモデル: https://github.com/alirezamshi/small100
関連論文リスト
- Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - MiLMo:Minority Multilingual Pre-trained Language Model [1.6409017540235764]
本稿では、マイノリティ言語タスクにおいてより優れた性能を発揮する、MLMoという多言語事前学習モデルを構築した。
テキスト分類タスクにおいて,Word2vecモデルと事前学習モデルを比較することにより,少数言語の下流タスク研究に最適なスキームを提供する。
論文 参考訳(メタデータ) (2022-12-04T09:28:17Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。