論文の概要: XtremeDistil: Multi-stage Distillation for Massive Multilingual Models
- arxiv url: http://arxiv.org/abs/2004.05686v2
- Date: Tue, 5 May 2020 00:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:04:45.916800
- Title: XtremeDistil: Multi-stage Distillation for Massive Multilingual Models
- Title(参考訳): XtremeDistil:多言語モデルの多段階蒸留
- Authors: Subhabrata Mukherjee, Ahmed Awadallah
- Abstract要約: 我々は多言語名前付きエンティティ認識(NER)に着目して知識蒸留を研究する。
本稿では,教師の内部表現を教師のアーキテクチャに依存しない段階的最適化手法を提案する。
提案手法は,NER 41言語に対する F1 スコアの95% を保ちながら,パラメータの35倍,バッチ推論の51倍のレイテンシで MBERT ライクな教師モデルを大幅に圧縮することを示した。
- 参考スコア(独自算出の注目度): 19.393371230300225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep and large pre-trained language models are the state-of-the-art for
various natural language processing tasks. However, the huge size of these
models could be a deterrent to use them in practice. Some recent and concurrent
works use knowledge distillation to compress these huge models into shallow
ones. In this work we study knowledge distillation with a focus on
multi-lingual Named Entity Recognition (NER). In particular, we study several
distillation strategies and propose a stage-wise optimization scheme leveraging
teacher internal representations that is agnostic of teacher architecture and
show that it outperforms strategies employed in prior works. Additionally, we
investigate the role of several factors like the amount of unlabeled data,
annotation resources, model architecture and inference latency to name a few.
We show that our approach leads to massive compression of MBERT-like teacher
models by upto 35x in terms of parameters and 51x in terms of latency for batch
inference while retaining 95% of its F1-score for NER over 41 languages.
- Abstract(参考訳): 深層および大規模事前訓練された言語モデルは、様々な自然言語処理タスクの最先端技術である。
しかし、これらのモデルの巨大なサイズは、実際にそれらを使用するための抑止力になり得る。
近年の並行研究では、これらの巨大なモデルを浅いものに圧縮するために知識蒸留を使用している。
本研究では,多言語名前付きエンティティ認識(NER)に着目した知識蒸留について検討する。
特に,いくつかの蒸留戦略を考察し,教師のアーキテクチャに無依存な教師内部表現を活用した段階的最適化手法を提案する。
さらに,ラベルなしデータ量,アノテーションリソース,モデルアーキテクチャ,推論待ち時間など,いくつかの要因の役割について検討した。
提案手法は,NER 41言語に対する F1 スコアの95% を保ちながら,パラメータの35倍,バッチ推論の51倍のレイテンシで MBERT ライクな教師モデルを大幅に圧縮することを示した。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。