論文の概要: Continual Distillation Learning
- arxiv url: http://arxiv.org/abs/2407.13911v1
- Date: Thu, 18 Jul 2024 21:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:23:12.014948
- Title: Continual Distillation Learning
- Title(参考訳): 連続蒸留学習
- Authors: Qifan Zhang, Yunhui Guo, Yu Xiang,
- Abstract要約: 継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題について検討する。
教師モデルと学生モデルは一連の課題を学習し、生徒モデルを改善するために教師モデルに関する知識を学生に蒸留する。
CDL-Promptという新しい手法を導入し,教師-学生モデルの構築にアクセプティブベースの連続学習モデルを用いた。
- 参考スコア(独自算出の注目度): 9.948802793399647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of Continual Distillation Learning (CDL) that considers Knowledge Distillation (KD) in the Continual Learning (CL) setup. A teacher model and a student model need to learn a sequence of tasks, and the knowledge of the teacher model will be distilled to the student to improve the student model. We introduce a novel method named CDL-Prompt that utilizes prompt-based continual learning models to build the teacher-student model. We investigate how to utilize the prompts of the teacher model in the student model for knowledge distillation, and propose an attention-based prompt mapping scheme to use the teacher prompts for the student. We demonstrate that our method can be applied to different prompt-based continual learning models such as L2P, DualPrompt and CODA-Prompt to improve their performance using powerful teacher models. Although recent CL methods focus on prompt learning, we show that our method can be utilized to build efficient CL models using prompt-based knowledge distillation.
- Abstract(参考訳): 継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題について検討する。
教師モデルと学生モデルは一連の課題を学習し、生徒モデルを改善するために教師モデルに関する知識を学生に蒸留する。
CDL-Prompt という新しい手法を導入し,教師-学生モデルの構築にアクセプティブベースの連続学習モデルを用いた。
本研究では,学生の知識蒸留モデルにおける教師モデルのプロンプトの活用方法について検討し,教師のプロンプトを学生に活用するための注意に基づくプロンプトマッピング手法を提案する。
提案手法は,L2P,DualPrompt,CODA-Promptなど,様々なプロンプトベースの連続学習モデルに適用して,強力な教師モデルを用いてその性能を向上させることができることを示す。
近年のCL法は即時学習に重点を置いているが,本手法は高速なCLモデルの構築に有効であることを示す。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Deep Collective Knowledge Distillation [0.2624902795082451]
DCKDと呼ばれるモデル圧縮のための深層集合的知識蒸留法を提案する。
我々のDCKDは,授業間の相関知識を高める方法を検討する。
この単純で強力な手法は、多くの実験で最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-04-18T10:10:46Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。