論文の概要: GKD: A General Knowledge Distillation Framework for Large-scale
Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2306.06629v1
- Date: Sun, 11 Jun 2023 09:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:36:18.801061
- Title: GKD: A General Knowledge Distillation Framework for Large-scale
Pre-trained Language Model
- Title(参考訳): GKD:大規模事前学習型言語モデルのための一般知識蒸留フレームワーク
- Authors: Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Yang Yang,
Hongyin Tang, Keqing He, Jiahao Liu, Jingang Wang, Shu Zhao, Peng Zhang, Jie
Tang
- Abstract要約: 本稿では,大規模PLMの蒸留を支援する一般知識蒸留フレームワークであるGKDを提案する。
GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることを示す。
その結果,GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流法を蒸留できることがわかった。
- 参考スコア(独自算出の注目度): 26.141575725773016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the reduction in the parameter scale of large-scale pre-trained
language models (PLMs) through knowledge distillation has greatly facilitated
their widespread deployment on various devices. However, the deployment of
knowledge distillation systems faces great challenges in real-world
industrial-strength applications, which require the use of complex distillation
methods on even larger-scale PLMs (over 10B), limited by memory on GPUs and the
switching of methods. To overcome these challenges, we propose GKD, a general
knowledge distillation framework that supports distillation on larger-scale
PLMs using various distillation methods. With GKD, developers can build larger
distillation models on memory-limited GPUs and easily switch and combine
different distillation methods within a single framework. Experimental results
show that GKD can support the distillation of at least 100B-scale PLMs and 25
mainstream methods on 8 NVIDIA A100 (40GB) GPUs.
- Abstract(参考訳): 現在、知識蒸留による大規模事前学習言語モデル(PLM)のパラメータスケールの縮小は、様々なデバイスへの展開を大いに促進している。
しかし、知識蒸留システムの展開は、より大規模なPLM(10B以上)に複雑な蒸留法を応用し、GPU上のメモリや方法の切り替えによって制限される、実世界の産業力の応用において大きな課題に直面している。
これらの課題を克服するために,様々な蒸留法を用いて大規模PLMの蒸留を支援する一般知識蒸留フレームワークGKDを提案する。
GKDを使用することで、開発者はメモリ制限されたGPU上でより大きな蒸留モデルを構築することができ、単一のフレームワーク内で異なる蒸留方法を簡単に切り替えて組み合わせることができる。
実験結果から,GKDは8個のNVIDIA A100 (40GB) GPU上で,少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることが示された。
関連論文リスト
- Towards Cross-Tokenizer Distillation: the Universal Logit Distillation
Loss for LLMs [12.412075695071529]
知識蒸留は、資源集約型の大規模モデルからより小さなモデルへの知識を圧縮することで解を提供する。
我々は,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失を導入する。
論文 参考訳(メタデータ) (2024-02-19T10:37:29Z) - Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation [19.859676581473774]
本稿では,HuBERTの蒸留作業に知識蒸留の本来の方法を適用することができることを示す。
我々は,HumberTのトランスフォーマー層をLSTMに基づく蒸留モデルに蒸留し,DistilHuBERT以下でもパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2023-09-18T16:34:40Z) - DLIP: Distilling Language-Image Pre-training [60.79987414368934]
DLIP(Distilling Language-Image Pre-training framework)を提案する。
我々は、異なるモジュールのアーキテクチャ特性など、モデルの蒸留を複数の次元から分離する。
実験結果から,DLIPは多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-24T17:50:21Z) - Unlimited Knowledge Distillation for Action Recognition in the Dark [69.16824521829024]
既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。
本稿では,無制限な知識蒸留(UKD)を提案する。
実験の結果,UKDで蒸留した単一ストリームネットワークは2ストリームネットワークを超えていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T06:04:39Z) - Distill Gold from Massive Ores: Efficient Dataset Distillation via
Critical Samples Selection [101.78275454476311]
情報伝達の文脈内でデータセット蒸留タスクをモデル化する。
我々は、データユーティリティー推定器のファミリーと、最も価値のあるサンプルを利用する最適なデータ選択方法を導入し、検証する。
提案手法は, より大規模で異種なデータセットであっても, 蒸留アルゴリズムを一貫して強化する。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Pixel Distillation: A New Knowledge Distillation Scheme for
Low-Resolution Image Recognition [85.78793763053798]
我々は、高解像度(HR)画像から学習した重いネットワークモデルから、コンパクトなネットワークモデルに有用な知識を抽出する先駆的な試みを行っている。
本稿では,知識蒸留をモデル圧縮段階と高分解能表現伝達段階に分散させるTAS(Teacher-Assistant-Student)フレームワークを提案する。
提案手法では,重度教師モデルと同等の精度で,パラメータがはるかに少なく,推論速度が速く,低解像度の入力が可能な軽量ネットワークモデルを学習することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。