論文の概要: Continual Distillation Learning: An Empirical Study of Knowledge Distillation in Prompt-based Continual Learning
- arxiv url: http://arxiv.org/abs/2407.13911v2
- Date: Fri, 13 Dec 2024 23:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:00.623730
- Title: Continual Distillation Learning: An Empirical Study of Knowledge Distillation in Prompt-based Continual Learning
- Title(参考訳): 継続蒸留学習 : プロンプトに基づく継続学習における知識蒸留の実証的研究
- Authors: Qifan Zhang, Yunhui Guo, Yu Xiang,
- Abstract要約: 本稿では,継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題を紹介する。
教師モデルと学生モデルは一連の課題を学習する必要があるが、教師モデルに関する知識はオンライン的に生徒モデルを改善するために学生に蒸留される。
- 参考スコア(独自算出の注目度): 9.948802793399647
- License:
- Abstract: Knowledge Distillation (KD) focuses on using a teacher model to improve a student model. Traditionally, KD is studied in an offline fashion, where a training dataset is available before learning. In this work, we introduce the problem of Continual Distillation Learning (CDL) that considers KD in the Continual Learning (CL) setup. A teacher model and a student model need to learn a sequence of tasks, and the knowledge of the teacher model will be distilled to the student to improve the student model in an online fashion. The CDL problem is valuable to study since for prompt-based continual learning methods, using a larger vision transformer (ViT) leads to better performance in continual learning. Distilling the knowledge from a large ViT to a small ViT can improve inference efficiency for promptbased CL models. To this end, we conducted experiments to study the CDL problem with three prompt-based CL models, i.e., L2P, DualPrompt and CODA-Prompt, where we utilized logit distillation, feature distillation and prompt distillation for knowledge distillation from a teacher model to a student model. Our findings of this study can serve as baselines for future CDL work.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルを用いて生徒モデルを改善することに焦点を当てている。
従来、KDはオフラインで研究されており、学習前にトレーニングデータセットが利用できる。
本稿では,連続学習(CL)におけるKDを考慮した連続蒸留学習(CDL)の問題を紹介する。
教師モデルと学生モデルは一連の課題を学習する必要があるが、教師モデルに関する知識はオンライン的に生徒モデルを改善するために学生に蒸留される。
逐次学習法では,視覚変換器(ViT)を用いることで連続学習の性能が向上するので,CDL問題は研究に有用である。
大規模なViTから小さなViTへの知識の蒸留は、プロンプトベースCLモデルの推論効率を向上させることができる。
そこで我々は,CDL問題を3つのプロンプトベースCLモデル(L2P,DualPrompt,CODA-Prompt)を用いて検討し,ロジット蒸留,特徴蒸留,知識蒸留の迅速蒸留を教師モデルから学生モデルに導入した。
本研究の成果は今後のCDL研究のベースラインとなる可能性がある。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Deep Collective Knowledge Distillation [0.2624902795082451]
DCKDと呼ばれるモデル圧縮のための深層集合的知識蒸留法を提案する。
我々のDCKDは,授業間の相関知識を高める方法を検討する。
この単純で強力な手法は、多くの実験で最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-04-18T10:10:46Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。