論文の概要: An Empirical Study of Leveraging Knowledge Distillation for Compressing
Multilingual Neural Machine Translation Models
- arxiv url: http://arxiv.org/abs/2304.09388v1
- Date: Wed, 19 Apr 2023 02:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:37:09.724270
- Title: An Empirical Study of Leveraging Knowledge Distillation for Compressing
Multilingual Neural Machine Translation Models
- Title(参考訳): 多言語ニューラルマシン翻訳モデル圧縮における知識蒸留の活用に関する実証的研究
- Authors: Varun Gumma, Raj Dabre, Pratyush Kumar
- Abstract要約: 本稿では,多言語ニューラルマシン翻訳(MNMT)モデルを圧縮するための知識蒸留に関する実証的研究を行う。
言語に依存しないKDアプローチでは、4-5倍小さいが3.5BLEUの性能低下に悩まされるモデルが得られることを示す。
我々は、KDを介してMNMTモデルを圧縮することは困難であり、さらなる研究の膨大な範囲を示唆している。
- 参考スコア(独自算出の注目度): 15.319668715349405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation (KD) is a well-known method for compressing neural
models. However, works focusing on distilling knowledge from large multilingual
neural machine translation (MNMT) models into smaller ones are practically
nonexistent, despite the popularity and superiority of MNMT. This paper bridges
this gap by presenting an empirical investigation of knowledge distillation for
compressing MNMT models. We take Indic to English translation as a case study
and demonstrate that commonly used language-agnostic and language-aware KD
approaches yield models that are 4-5x smaller but also suffer from performance
drops of up to 3.5 BLEU. To mitigate this, we then experiment with design
considerations such as shallower versus deeper models, heavy parameter sharing,
multi-stage training, and adapters. We observe that deeper compact models tend
to be as good as shallower non-compact ones, and that fine-tuning a distilled
model on a High-Quality subset slightly boosts translation quality. Overall, we
conclude that compressing MNMT models via KD is challenging, indicating immense
scope for further research.
- Abstract(参考訳): 知識蒸留(KD)は、ニューラルネットワークを圧縮する方法としてよく知られている。
しかし、MNMTの人気と優位性にもかかわらず、大規模な多言語ニューラルネットワーク翻訳(MNMT)モデルからより小さなモデルへの知識の蒸留に焦点をあてる作業は事実上存在しない。
本稿では,MNMTモデル圧縮における知識蒸留の実証的研究により,このギャップを埋める。
英語訳の指標をケーススタディとして,一般的に使用される言語非依存・言語対応のkdアプローチが,4~5倍小さく,最大3.5 bleuのパフォーマンス低下に苦しむモデルをもたらすことを実証した。
これを緩和するために、より浅いモデルと深いモデル、重いパラメータ共有、多段階トレーニング、アダプタといった設計上の考慮を実験します。
より深いコンパクトモデルは、より浅い非コンパクトモデルと同程度に良く、高品質サブセット上で蒸留されたモデルを微調整することで、翻訳品質がわずかに向上する。
全体として、KDによるMNMTモデルの圧縮は困難であり、さらなる研究の膨大な範囲が示唆されている。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models [2.2871867623460216]
本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。
実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-06T23:52:53Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Learning Light-Weight Translation Models from Deep Transformer [25.386460662408773]
本稿では,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
私達の圧縮されたモデルはBLEUのほとんど損失無しで深いモデルより8X浅いです。
教師モデルをさらに強化するため,サブレイヤをランダムに省略してトレーニングに摂動を導入するスキップサブ層法を提案する。
論文 参考訳(メタデータ) (2020-12-27T05:33:21Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。