論文の概要: Pro-KD: Progressive Distillation by Following the Footsteps of the
Teacher
- arxiv url: http://arxiv.org/abs/2110.08532v1
- Date: Sat, 16 Oct 2021 09:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:00:14.743097
- Title: Pro-KD: Progressive Distillation by Following the Footsteps of the
Teacher
- Title(参考訳): プロKD : 教師の足跡に追従した進行性蒸留
- Authors: Mehdi Rezagholizadeh, Aref Jafari, Puneeth Salad, Pranav Sharma, Ali
Saheb Pasand, Ali Ghodsi
- Abstract要約: プロKD手法は、教師のトレーニングフットプリントに従うことで、生徒のよりスムーズなトレーニングパスを定義する。
本手法は,キャパシティギャップ問題とチェックポイント探索問題の緩和に有効であることを示す。
- 参考スコア(独自算出の注目度): 5.010360359434596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With ever growing scale of neural models, knowledge distillation (KD)
attracts more attention as a prominent tool for neural model compression.
However, there are counter intuitive observations in the literature showing
some challenging limitations of KD. A case in point is that the best performing
checkpoint of the teacher might not necessarily be the best teacher for
training the student in KD. Therefore, one important question would be how to
find the best checkpoint of the teacher for distillation? Searching through the
checkpoints of the teacher would be a very tedious and computationally
expensive process, which we refer to as the \textit{checkpoint-search problem}.
Moreover, another observation is that larger teachers might not necessarily be
better teachers in KD which is referred to as the \textit{capacity-gap}
problem. To address these challenging problems, in this work, we introduce our
progressive knowledge distillation (Pro-KD) technique which defines a smoother
training path for the student by following the training footprints of the
teacher instead of solely relying on distilling from a single mature
fully-trained teacher. We demonstrate that our technique is quite effective in
mitigating the capacity-gap problem and the checkpoint search problem. We
evaluate our technique using a comprehensive set of experiments on different
tasks such as image classification (CIFAR-10 and CIFAR-100), natural language
understanding tasks of the GLUE benchmark, and question answering (SQuAD 1.1
and 2.0) using BERT-based models and consistently got superior results over
state-of-the-art techniques.
- Abstract(参考訳): 神経モデルのスケールが拡大するにつれて、知識蒸留(kd)は、神経モデル圧縮の顕著なツールとして注目を集める。
しかし、文献には、KDの難解な限界を示す直感的な観察がある。
ポイントは、教師の最高のチェックポイントが、必ずしもKDの学生を訓練する最高の教師であるとは限らないことである。
ですから,1つの重要な疑問は,蒸留のための教師の最適なチェックポイントを見つける方法だ。
教師のチェックポイントを検索することは、非常に退屈で計算コストのかかるプロセスであり、これは \textit{checkpoint-search problem} と呼ばれる。
さらに、より大きな教師が必ずしも「textit{capacity-gap}」問題と呼ばれるKDのより良い教師であるとは限らないという見方もある。
この課題に対処するため,本研究では,1人の成熟した完全学習教師の蒸留のみに頼るのではなく,教師のトレーニングフットプリントに従うことにより,生徒の円滑なトレーニングパスを定義するプログレッシブ・ナレッジ・蒸留(pro-kd)技術を紹介する。
本手法は,キャパシティギャップ問題とチェックポイント探索問題の軽減に非常に有効であることを示す。
我々は,画像分類(CIFAR-10とCIFAR-100),GLUEベンチマークの自然言語理解タスク,BERTモデルを用いた質問応答(SQuAD 1.1と2.0)など,さまざまなタスクを対象とした総合的な実験を行い,最新技術よりも優れた結果を得た。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Triplet Knowledge Distillation [73.39109022280878]
知識蒸留(Knowledge Distillation)では、教師は一般的に生徒よりもはるかに大きく、教師の解法は生徒が学ぶのが難しくなる。
模擬困難を緩和するため,TriKDという三重項知識蒸留機構を導入する。
論文 参考訳(メタデータ) (2023-05-25T12:12:31Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Gradient Knowledge Distillation for Pre-trained Language Models [21.686694954239865]
蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。
実験結果から,GKDは従来のKD法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-02T12:07:16Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。