論文の概要: PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning
- arxiv url: http://arxiv.org/abs/2402.12842v2
- Date: Mon, 24 Jun 2024 05:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:51:30.691629
- Title: PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning
- Title(参考訳): PromptKD: Prompt Tuningによる生成言語モデルのための学生フレンドリーな知識の蒸留
- Authors: Gyeongman Kim, Doohyuk Jang, Eunho Yang,
- Abstract要約: 本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。
命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。
さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
- 参考スコア(独自算出の注目度): 30.70974942397732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have raised concerns about inference costs, increasing the need for research into model compression. While knowledge distillation (KD) is a prominent method for this, research on KD for generative language models like LLMs is relatively sparse, and the approach of distilling student-friendly knowledge, which has shown promising performance in KD for classification models, remains unexplored in generative language models. To explore this approach, we propose PromptKD, a simple yet effective method that utilizes prompt tuning - for the first time in KD - to enable generative language models to transfer student-friendly knowledge. Unlike previous works in classification that require fine-tuning the entire teacher model for extracting student-friendly knowledge, PromptKD achieves similar effects by adding a small number of prompt tokens and tuning only the prompt with student guidance. Extensive experiments on instruction-following datasets show that PromptKD achieves state-of-the-art performance while adding only 0.0007% of the teacher's parameters as prompts. Further analysis suggests that distilling student-friendly knowledge alleviates exposure bias effectively throughout the entire training process, leading to performance enhancements.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、推論コストに対する懸念が高まり、モデル圧縮の研究の必要性が高まっている。
知識蒸留(KD)は重要な手法であるが、LLMのような生成言語モデルにおけるKDの研究は比較的疎いものであり、分類モデルにおけるKDの有望な性能を示す学生フレンドリな知識の蒸留のアプローチは、生成言語モデルでは未探索のままである。
提案手法は, 学生に親しみやすい知識を伝達するための生成言語モデルを実現するために, 即時チューニング(KD)を初めて利用する, シンプルで効果的な方法である。
学生に親しみやすい知識を抽出するために教師モデル全体を微調整する必要がある以前の分類法とは異なり、PromptKDは少数のプロンプトトークンを追加し、学生指導でプロンプトのみをチューニングすることで同様の効果を達成している。
PromptKDは、教師のパラメータの0.0007%をプロンプトとして追加しながら、最先端のパフォーマンスを達成する。
さらに分析したところ、学生に親しみやすい知識を蒸留することで、トレーニングプロセス全体を通して効果的に露光バイアスが軽減され、パフォーマンスが向上することが示唆された。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - Oracle Teacher: Leveraging Target Information for Better Knowledge
Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。
Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。
CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:14:05Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。