論文の概要: Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models
- arxiv url: http://arxiv.org/abs/2210.15184v1
- Date: Thu, 27 Oct 2022 05:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:54:08.522221
- Title: Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models
- Title(参考訳): 触るには脆すぎる: 軽量低リソースmtモデル開発に向けた量子化と蒸留の安定性の比較
- Authors: Harshita Diddee, Sandipan Dandapat, Monojit Choudhury, Tanuja Ganu,
Kalika Bali
- Abstract要約: 最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
- 参考スコア(独自算出の注目度): 12.670354498961492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging shared learning through Massively Multilingual Models,
state-of-the-art machine translation models are often able to adapt to the
paucity of data for low-resource languages. However, this performance comes at
the cost of significantly bloated models which are not practically deployable.
Knowledge Distillation is one popular technique to develop competitive,
lightweight models: In this work, we first evaluate its use to compress MT
models focusing on languages with extremely limited training data. Through our
analysis across 8 languages, we find that the variance in the performance of
the distilled models due to their dependence on priors including the amount of
synthetic data used for distillation, the student architecture, training
hyperparameters and confidence of the teacher models, makes distillation a
brittle compression mechanism. To mitigate this, we explore the use of
post-training quantization for the compression of these models. Here, we find
that while distillation provides gains across some low-resource languages,
quantization provides more consistent performance trends for the entire range
of languages, especially the lowest-resource languages in our target set.
- Abstract(参考訳): 大規模多言語モデルによる共有学習を活用することで、最先端の機械翻訳モデルは、低リソース言語のデータに適応できることが多い。
しかし、このパフォーマンスは、実際にデプロイできないかなり肥大化したモデルのコストがかかる。
知識蒸留は、競争力のある軽量なモデルを開発するための一般的な手法である:本研究では、非常に限られた訓練データを持つ言語に焦点を当てたMTモデルを圧縮する手法を最初に評価する。
8言語にわたる分析から, 蒸留に使用する合成データの量, 学生建築, ハイパーパラメータの訓練, 教師モデルの信頼度など, 先行性に依存した蒸留モデルの性能のばらつきが, 蒸留を不安定な圧縮機構にすることがわかった。
これを軽減するために,これらのモデルの圧縮にポストトレーニング量子化を用いることを検討する。
ここでは, 蒸留が低リソース言語間で利益をもたらすのに対して, 量子化は, 対象言語全体, 特に, 対象言語の最低リソース言語に対して, より一貫したパフォーマンストレンドを提供する。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models [2.2871867623460216]
本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。
実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-06T23:52:53Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z) - XtremeDistil: Multi-stage Distillation for Massive Multilingual Models [19.393371230300225]
我々は多言語名前付きエンティティ認識(NER)に着目して知識蒸留を研究する。
本稿では,教師の内部表現を教師のアーキテクチャに依存しない段階的最適化手法を提案する。
提案手法は,NER 41言語に対する F1 スコアの95% を保ちながら,パラメータの35倍,バッチ推論の51倍のレイテンシで MBERT ライクな教師モデルを大幅に圧縮することを示した。
論文 参考訳(メタデータ) (2020-04-12T19:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。