論文の概要: GKD: A General Knowledge Distillation Framework for Large-scale
Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2306.06629v1
- Date: Sun, 11 Jun 2023 09:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:36:18.801061
- Title: GKD: A General Knowledge Distillation Framework for Large-scale
Pre-trained Language Model
- Title(参考訳): GKD:大規模事前学習型言語モデルのための一般知識蒸留フレームワーク
- Authors: Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Yang Yang,
Hongyin Tang, Keqing He, Jiahao Liu, Jingang Wang, Shu Zhao, Peng Zhang, Jie
Tang
- Abstract要約: 本稿では,大規模PLMの蒸留を支援する一般知識蒸留フレームワークであるGKDを提案する。
GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることを示す。
その結果,GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流法を蒸留できることがわかった。
- 参考スコア(独自算出の注目度): 26.141575725773016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the reduction in the parameter scale of large-scale pre-trained
language models (PLMs) through knowledge distillation has greatly facilitated
their widespread deployment on various devices. However, the deployment of
knowledge distillation systems faces great challenges in real-world
industrial-strength applications, which require the use of complex distillation
methods on even larger-scale PLMs (over 10B), limited by memory on GPUs and the
switching of methods. To overcome these challenges, we propose GKD, a general
knowledge distillation framework that supports distillation on larger-scale
PLMs using various distillation methods. With GKD, developers can build larger
distillation models on memory-limited GPUs and easily switch and combine
different distillation methods within a single framework. Experimental results
show that GKD can support the distillation of at least 100B-scale PLMs and 25
mainstream methods on 8 NVIDIA A100 (40GB) GPUs.
- Abstract(参考訳): 現在、知識蒸留による大規模事前学習言語モデル(PLM)のパラメータスケールの縮小は、様々なデバイスへの展開を大いに促進している。
しかし、知識蒸留システムの展開は、より大規模なPLM(10B以上)に複雑な蒸留法を応用し、GPU上のメモリや方法の切り替えによって制限される、実世界の産業力の応用において大きな課題に直面している。
これらの課題を克服するために,様々な蒸留法を用いて大規模PLMの蒸留を支援する一般知識蒸留フレームワークGKDを提案する。
GKDを使用することで、開発者はメモリ制限されたGPU上でより大きな蒸留モデルを構築することができ、単一のフレームワーク内で異なる蒸留方法を簡単に切り替えて組み合わせることができる。
実験結果から,GKDは8個のNVIDIA A100 (40GB) GPU上で,少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることが示された。
関連論文リスト
- Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。
本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。
提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-10-10T07:40:51Z) - Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Towards Cross-Tokenizer Distillation: the Universal Logit Distillation
Loss for LLMs [12.412075695071529]
知識蒸留は、資源集約型の大規模モデルからより小さなモデルへの知識を圧縮することで解を提供する。
我々は,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失を導入する。
論文 参考訳(メタデータ) (2024-02-19T10:37:29Z) - Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation [19.859676581473774]
本稿では,HuBERTの蒸留作業に知識蒸留の本来の方法を適用することができることを示す。
我々は,HumberTのトランスフォーマー層をLSTMに基づく蒸留モデルに蒸留し,DistilHuBERT以下でもパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2023-09-18T16:34:40Z) - DLIP: Distilling Language-Image Pre-training [60.79987414368934]
DLIP(Distilling Language-Image Pre-training framework)を提案する。
我々は、異なるモジュールのアーキテクチャ特性など、モデルの蒸留を複数の次元から分離する。
実験結果から,DLIPは多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-24T17:50:21Z) - Unlimited Knowledge Distillation for Action Recognition in the Dark [69.16824521829024]
既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。
本稿では,無制限な知識蒸留(UKD)を提案する。
実験の結果,UKDで蒸留した単一ストリームネットワークは2ストリームネットワークを超えていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T06:04:39Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。