Fugu-MT 論文翻訳(概要): Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

論文の概要: Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

arxiv url: http://arxiv.org/abs/2212.09811v1
Date: Mon, 19 Dec 2022 19:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:23:48.973068
Title: Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model
Title（参考訳）: メモリ効率の高いNLLB-200:多言語機械翻訳モデルの言語特化
Authors: Yeskendir Koishekenov, Vassilina Nikoulina, Alexandre Berard
Abstract要約: 本研究では,翻訳品質を損なうことなく,最大80%のエキスパートを除去できるプルーニング手法を提案する。私たちのプルーニングメトリクスは、言語固有の専門家を識別し、特定の言語ペアに関連のないエキスパートをプルーンすることを可能にする。
参考スコア（独自算出の注目度）: 92.91310997807936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compared to conventional bilingual translation systems, massively multilingual machine translation is appealing because a single model can translate into multiple languages and benefit from knowledge transfer for low resource languages. On the other hand, massively multilingual models suffer from the curse of multilinguality, unless scaling their size massively, which increases their training and inference costs. Sparse Mixture-of-Experts models are a way to drastically increase model capacity without the need for a proportional amount of computing. The recently released NLLB-200 is an example of such a model. It covers 202 languages but requires at least four 32GB GPUs just for inference. In this work, we propose a pruning method that allows the removal of up to 80\% of experts with a negligible loss in translation quality, which makes it feasible to run the model on a single 32GB GPU. Further analysis suggests that our pruning metrics allow to identify language-specific experts and prune non-relevant experts for a given language pair.
Abstract（参考訳）: 従来のバイリンガル翻訳システムと比較して、単一のモデルが複数の言語に翻訳でき、低リソース言語に対する知識伝達の恩恵を受けるため、多言語機械翻訳は魅力的である。一方、多言語モデルは、そのサイズを大規模にスケーリングし、トレーニングと推論コストを増大させない限り、多言語性の呪いに悩まされる。 Sparse Mixture-of-Expertsモデルは、比例計算を必要とせずに、モデル容量を大幅に増やす方法である。最近リリースされたnllb-200は、そのようなモデルの例である。 202言語をカバーするが、推論には少なくとも4つの32GB GPUが必要である。そこで本研究では, 翻訳品質を損なうことなく, 最大80\%のエキスパートを除去し, 単一の32gb gpu上でモデルを実行することが可能なプルーニング手法を提案する。さらに分析した結果,言語固有の専門家を識別し,特定の言語ペアに関連のない専門家を特定できることが示唆された。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
CULL-MT: Compression Using Language and Layer pruning for Machine Translation [2.565964707090901]
構造層プルーニングと選択言語方向に基づく機械翻訳モデルの圧縮手法であるCULL-MTを提案する。 NLLB-3.3Bモデルは堅牢であり、25%の層を0.9spBLEUのドロップで刈り取ることができる。しかし、LLaMA3.1-8B-インストラクタはより感度が高く、5つの層を刈った後、2.0spBLEUの低下が生じる。
論文参考訳（メタデータ） (2024-11-10T16:05:11Z)
How Multilingual Are Large Language Models Fine-Tuned for Translation? [13.612090779277281]
並列テキスト上での微調整大型言語モデル(LLM)は、大量の並列データに対して教師あり方式で訓練された専用翻訳システムより優れていることが示されている。翻訳の微調整は、ゼロショット言語、ゼロショット言語ペア、英語を含まない翻訳タスクのLLMのMT機能にどのように影響しますか? 翻訳の微調整により、ゼロショット言語でも平均で翻訳品質が向上するが、関連する言語ペアによる影響は不均一である。
論文参考訳（メタデータ） (2024-05-30T22:08:20Z)
Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。 10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文参考訳（メタデータ） (2024-01-31T17:58:10Z)
LIMIT: Language Identification, Misidentification, and Translation using Hierarchical Models in 350+ Languages [27.675441924635294]
現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。まず、350以上の言語で50Kの多言語・並列児童話のコーパスMCS-350をコンパイルする。言語識別のための新しい誤予測分解階層モデル LIMIt を提案する。
論文参考訳（メタデータ） (2023-05-23T17:15:43Z)
Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文参考訳（メタデータ） (2023-03-03T13:23:42Z)
SMaLL-100: Introducing Shallow Multilingual Machine Translation Model for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文参考訳（メタデータ） (2022-10-20T22:32:29Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文参考訳（メタデータ） (2020-10-07T03:57:54Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)
Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文参考訳（メタデータ） (2020-04-24T17:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。