論文の概要: CULL-MT: Compression Using Language and Layer pruning for Machine Translation
- arxiv url: http://arxiv.org/abs/2411.06506v1
- Date: Sun, 10 Nov 2024 16:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:17.293418
- Title: CULL-MT: Compression Using Language and Layer pruning for Machine Translation
- Title(参考訳): CULL-MT:機械翻訳における言語と層プルーニングを用いた圧縮
- Authors: Pedram Rostami, Mohammad Javad Dousti,
- Abstract要約: 構造層プルーニングと選択言語方向に基づく機械翻訳モデルの圧縮手法であるCULL-MTを提案する。
NLLB-3.3Bモデルは堅牢であり、25%の層を0.9spBLEUのドロップで刈り取ることができる。
しかし、LLaMA3.1-8B-インストラクタはより感度が高く、5つの層を刈った後、2.0spBLEUの低下が生じる。
- 参考スコア(独自算出の注目度): 2.565964707090901
- License:
- Abstract: Multilingual machine translation models often outperform traditional bilingual models by leveraging translation knowledge transfer. Recent advancements have led to these models supporting hundreds of languages and achieving state-of-the-art results across various translation directions. However, as these models grow larger, their inference operations become increasingly costly. In many use cases, there is no need to support such a wide range of language pairs, as translation is typically needed in only a few selected directions. In this paper, we present CULL-MT, a compression method for machine translation models based on structural layer pruning and selected language directions. Our approach identifies and prunes unimportant layers using a greedy strategy, then mitigates the impact by applying knowledge distillation from the original model along with parameter-efficient fine-tuning. We apply CULL-MT to the NLLB-3.3B and LLaMA3.1-8B-Instruct models. In a multi-way translation scenario (Persian, French, and German to English), we find the NLLB-3.3B model to be robust, allowing 25% of layers to be pruned with only a 0.9 spBLEU drop. However, LLaMA3.1-8B-Instruct is more sensitive, with a 2.0 spBLEU drop after pruning 5 layers.
- Abstract(参考訳): 多言語機械翻訳モデルは、翻訳知識の伝達を利用して従来のバイリンガルモデルより優れていることが多い。
近年の進歩により、これらのモデルは数百の言語をサポートし、様々な翻訳方向の最先端の結果を得ることができた。
しかし、これらのモデルが大きくなるにつれて、推論操作はますますコストがかかる。
多くのユースケースでは、典型的にはいくつかの選択された方向にのみ翻訳を必要とするため、このような幅広い言語ペアをサポートする必要はない。
本稿では,構造層プルーニングと選択言語方向に基づく機械翻訳モデルの圧縮手法であるCULL-MTを提案する。
提案手法は, グリーディ戦略を用いて重要でない層を同定し, パラメータ効率の良い微調整とともに, 元のモデルから知識蒸留を適用し, 影響を緩和する。
CULL-MTをNLLB-3.3BとLLaMA3.1-8B-インストラクトモデルに適用する。
マルチウェイの翻訳シナリオ(ペルシャ語、フランス語、ドイツ語から英語)では、NLLB-3.3Bモデルが堅牢であることに気付き、25%の層を0.9spBLEUドロップで刈り取ることができる。
しかし、LLaMA3.1-8B-インストラクタはより感度が高く、5つの層を刈った後、2.0spBLEUの低下が生じる。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Learning Language-Specific Layers for Multilingual Machine Translation [1.997704019887898]
言語特化トランスフォーマー層(LSL)を紹介する。
LSLは、計算量と前方通過定数のパラメータ数を保ちながら、モデルのキャパシティを向上させることができる。
我々は、ニューラルネットワーク探索にインスパイアされたアプローチを用いて、これらの層を配置する最善の方法を研究し、分離されたデコーダアーキテクチャではLSLを使用しない 1.3 chrF (1.5 spBLEU) 点、共有デコーダでは 1.9 chrF (2.2 spBLEU) 点の改善を実現した。
論文 参考訳(メタデータ) (2023-05-04T09:18:05Z) - Memory-efficient NLLB-200: Language-specific Expert Pruning of a
Massively Multilingual Machine Translation Model [92.91310997807936]
NLLB-200は202言語をカバーする多言語ニューラルネットワークモデルである。
そこで本研究では,最大80%のエキスパートの除去を,それ以上の微調整を行なわずに行うことができるプルーニング法を提案する。
論文 参考訳(メタデータ) (2022-12-19T19:29:40Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。