Fugu-MT 論文翻訳(概要): Continual Distillation Learning: An Empirical Study of Knowledge Distillation in Prompt-based Continual Learning

論文の概要: Continual Distillation Learning: An Empirical Study of Knowledge Distillation in Prompt-based Continual Learning

arxiv url: http://arxiv.org/abs/2407.13911v2
Date: Fri, 13 Dec 2024 23:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.545186
Title: Continual Distillation Learning: An Empirical Study of Knowledge Distillation in Prompt-based Continual Learning
Title（参考訳）: 継続蒸留学習 : プロンプトに基づく継続学習における知識蒸留の実証的研究
Authors: Qifan Zhang, Yunhui Guo, Yu Xiang,
Abstract要約: 本稿では,継続学習(CL)における知識蒸留(KD)を考慮した連続蒸留学習(CDL)の問題を紹介する。教師モデルと学生モデルは一連の課題を学習する必要があるが、教師モデルに関する知識はオンライン的に生徒モデルを改善するために学生に蒸留される。
参考スコア（独自算出の注目度）: 9.948802793399647
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Knowledge Distillation (KD) focuses on using a teacher model to improve a student model. Traditionally, KD is studied in an offline fashion, where a training dataset is available before learning. In this work, we introduce the problem of Continual Distillation Learning (CDL) that considers KD in the Continual Learning (CL) setup. A teacher model and a student model need to learn a sequence of tasks, and the knowledge of the teacher model will be distilled to the student to improve the student model in an online fashion. The CDL problem is valuable to study since for prompt-based continual learning methods, using a larger vision transformer (ViT) leads to better performance in continual learning. Distilling the knowledge from a large ViT to a small ViT can improve inference efficiency for promptbased CL models. To this end, we conducted experiments to study the CDL problem with three prompt-based CL models, i.e., L2P, DualPrompt and CODA-Prompt, where we utilized logit distillation, feature distillation and prompt distillation for knowledge distillation from a teacher model to a student model. Our findings of this study can serve as baselines for future CDL work.
Abstract（参考訳）: 知識蒸留(KD)は、教師モデルを用いて生徒モデルを改善することに焦点を当てている。従来、KDはオフラインで研究されており、学習前にトレーニングデータセットが利用できる。本稿では,連続学習(CL)におけるKDを考慮した連続蒸留学習(CDL)の問題を紹介する。教師モデルと学生モデルは一連の課題を学習する必要があるが、教師モデルに関する知識はオンライン的に生徒モデルを改善するために学生に蒸留される。逐次学習法では,視覚変換器(ViT)を用いることで連続学習の性能が向上するので,CDL問題は研究に有用である。大規模なViTから小さなViTへの知識の蒸留は、プロンプトベースCLモデルの推論効率を向上させることができる。そこで我々は,CDL問題を3つのプロンプトベースCLモデル(L2P,DualPrompt,CODA-Prompt)を用いて検討し,ロジット蒸留,特徴蒸留,知識蒸留の迅速蒸留を教師モデルから学生モデルに導入した。本研究の成果は今後のCDL研究のベースラインとなる可能性がある。

関連論文リスト

Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文参考訳（メタデータ） (2024-12-19T15:44:01Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文参考訳（メタデータ） (2024-09-03T07:42:59Z)
ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。 EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文参考訳（メタデータ） (2024-08-08T01:12:21Z)
MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models [4.404914701832396]
本研究では,教師-学生の枠組みにおける多段階知識を蒸留するための知識蒸留手法MLKD-BERTを提案する。本手法は, BERTにおける最先端の知識蒸留法より優れている。さらに、MLKD-BERTは、生徒の注意番号を柔軟に設定でき、性能低下を少なく抑えることができる。
論文参考訳（メタデータ） (2024-07-03T03:03:30Z)
PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning [30.70974942397732]
本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
論文参考訳（メタデータ） (2024-02-20T09:10:08Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Deep Collective Knowledge Distillation [0.2624902795082451]
DCKDと呼ばれるモデル圧縮のための深層集合的知識蒸留法を提案する。我々のDCKDは,授業間の相関知識を高める方法を検討する。この単純で強力な手法は、多くの実験で最先端の性能を達成する。
論文参考訳（メタデータ） (2023-04-18T10:10:46Z)
Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。 CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文参考訳（メタデータ） (2022-11-27T09:27:50Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文参考訳（メタデータ） (2022-03-14T15:02:13Z)
Adaptive Instance Distillation for Object Detection in Autonomous Driving [3.236217153362305]
本稿では,教師の知識を学生に選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留(AID)を提案する。また,AIDは教師モデルの性能向上に有効であることが示された。
論文参考訳（メタデータ） (2022-01-26T18:06:33Z)
Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文参考訳（メタデータ） (2021-11-23T09:44:58Z)
Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。 Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。 CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文参考訳（メタデータ） (2021-11-05T14:14:05Z)
Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。 IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文参考訳（メタデータ） (2021-09-10T03:01:01Z)
Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文参考訳（メタデータ） (2021-02-12T07:00:17Z)
Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。 4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2021-01-21T07:17:04Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。 KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文参考訳（メタデータ） (2020-12-05T00:32:04Z)
Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。 KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文参考訳（メタデータ） (2020-11-08T23:37:58Z)
Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-21T07:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。