Fugu-MT 論文翻訳(概要): GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model

論文の概要: GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model

arxiv url: http://arxiv.org/abs/2306.06629v1
Date: Sun, 11 Jun 2023 09:17:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 17:36:18.801061
Title: GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model
Title（参考訳）: GKD:大規模事前学習型言語モデルのための一般知識蒸留フレームワーク
Authors: Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Yang Yang, Hongyin Tang, Keqing He, Jiahao Liu, Jingang Wang, Shu Zhao, Peng Zhang, Jie Tang
Abstract要約: 本稿では,大規模PLMの蒸留を支援する一般知識蒸留フレームワークであるGKDを提案する。 GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることを示す。その結果,GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流法を蒸留できることがわかった。
参考スコア（独自算出の注目度）: 26.141575725773016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Currently, the reduction in the parameter scale of large-scale pre-trained language models (PLMs) through knowledge distillation has greatly facilitated their widespread deployment on various devices. However, the deployment of knowledge distillation systems faces great challenges in real-world industrial-strength applications, which require the use of complex distillation methods on even larger-scale PLMs (over 10B), limited by memory on GPUs and the switching of methods. To overcome these challenges, we propose GKD, a general knowledge distillation framework that supports distillation on larger-scale PLMs using various distillation methods. With GKD, developers can build larger distillation models on memory-limited GPUs and easily switch and combine different distillation methods within a single framework. Experimental results show that GKD can support the distillation of at least 100B-scale PLMs and 25 mainstream methods on 8 NVIDIA A100 (40GB) GPUs.
Abstract（参考訳）: 現在、知識蒸留による大規模事前学習言語モデル(PLM)のパラメータスケールの縮小は、様々なデバイスへの展開を大いに促進している。しかし、知識蒸留システムの展開は、より大規模なPLM(10B以上)に複雑な蒸留法を応用し、GPU上のメモリや方法の切り替えによって制限される、実世界の産業力の応用において大きな課題に直面している。これらの課題を克服するために,様々な蒸留法を用いて大規模PLMの蒸留を支援する一般知識蒸留フレームワークGKDを提案する。 GKDを使用することで、開発者はメモリ制限されたGPU上でより大きな蒸留モデルを構築することができ、単一のフレームワーク内で異なる蒸留方法を簡単に切り替えて組み合わせることができる。実験結果から,GKDは8個のNVIDIA A100 (40GB) GPU上で,少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることが示された。

関連論文リスト

TopKD: Top-scaled Knowledge Distillation [12.589031892370809]
Top-scaled Knowledge Distillation (TopKD)は、ロジットベースの蒸留を大幅に強化するシンプルで効率的でアーキテクチャに依存しないフレームワークである。 CIFAR-100、ImageNet、STL-10、Tiny-ImageNetの実験では、TopKDは最先端の蒸留法を一貫して超越している。
論文参考訳（メタデータ） (2025-08-06T15:26:08Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures [6.231548250160585]
MLDR-KD(Multi-Level Decoupled Knowledge Distillation)は、CodeAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上した。
論文参考訳（メタデータ） (2025-02-10T06:41:20Z)
Inverse Bridge Matching Distillation [69.479483488685]
拡散ブリッジモデル(DBMs)は、画像から画像への変換に応用するための拡散モデルの有望な拡張である。本稿では, 逆橋整合式に基づく新しい蒸留技術を提案し, 実際に解決するための抽出可能な目的を導出する。我々は,超解像,JPEG復元,スケッチ・トゥ・イメージ,その他のタスクを含む,広範囲のセットアップにおいて,条件付きおよび非条件付きブリッジマッチングのアプローチを評価する。
論文参考訳（メタデータ） (2025-02-03T13:56:03Z)
Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文参考訳（メタデータ） (2024-12-19T15:44:01Z)
Multi-perspective Contrastive Logit Distillation [12.589031892370809]
本稿では,ロジット蒸留の性能と有効性を大幅に向上させる,新規で効率的なロジット蒸留法であるマルチパースペクティブ・コントラスト・ロジット蒸留(MCLD)を導入する。 MCLDは、CIFAR-100、ImageNet、Tiny-ImageNet、STL-10など、複数のデータセットにまたがって、画像分類、転送学習タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-16T04:08:41Z)
Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文参考訳（メタデータ） (2024-10-10T07:40:51Z)
Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs [12.412075695071529]
知識蒸留は、資源集約型の大規模モデルからより小さなモデルへの知識を圧縮することで解を提供する。我々は,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失を導入する。
論文参考訳（メタデータ） (2024-02-19T10:37:29Z)
Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation [19.859676581473774]
本稿では,HuBERTの蒸留作業に知識蒸留の本来の方法を適用することができることを示す。我々は,HumberTのトランスフォーマー層をLSTMに基づく蒸留モデルに蒸留し,DistilHuBERT以下でもパラメータ数を削減することを提案する。
論文参考訳（メタデータ） (2023-09-18T16:34:40Z)
DLIP: Distilling Language-Image Pre-training [60.79987414368934]
DLIP(Distilling Language-Image Pre-training framework)を提案する。我々は、異なるモジュールのアーキテクチャ特性など、モデルの蒸留を複数の次元から分離する。実験結果から,DLIPは多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。
論文参考訳（メタデータ） (2023-08-24T17:50:21Z)
Unlimited Knowledge Distillation for Action Recognition in the Dark [69.16824521829024]
既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。本稿では,無制限な知識蒸留(UKD)を提案する。実験の結果,UKDで蒸留した単一ストリームネットワークは2ストリームネットワークを超えていることがわかった。
論文参考訳（メタデータ） (2023-08-18T06:04:39Z)
DETRDistill: A Universal Knowledge Distillation Framework for DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文参考訳（メタデータ） (2022-11-17T13:35:11Z)
KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling [52.11242317111469]
我々は、知識蒸留によるDETRの圧縮に焦点を当てる。 DETR蒸留の主な課題は、一貫した蒸留点の欠如である。本稿では,一貫した蒸留点サンプリングによるDETRのための最初の一般知識蒸留パラダイムを提案する。
論文参考訳（メタデータ） (2022-11-15T11:52:30Z)
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文参考訳（メタデータ） (2022-05-18T18:05:13Z)
Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文参考訳（メタデータ） (2020-10-24T23:15:43Z)
Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。 1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文参考訳（メタデータ） (2020-07-17T14:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。