論文の概要: Learning from a Lightweight Teacher for Efficient Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2005.09163v1
- Date: Tue, 19 May 2020 01:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:32:09.613736
- Title: Learning from a Lightweight Teacher for Efficient Knowledge Distillation
- Title(参考訳): 知識蒸留の効率化をめざした軽量教師の学習
- Authors: Yuang Liu, Wei Zhang, Jun Wang
- Abstract要約: 本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
- 参考スコア(独自算出の注目度): 14.865673786025525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is an effective framework for compressing deep
learning models, realized by a student-teacher paradigm requiring small student
networks to mimic the soft target generated by well-trained teachers. However,
the teachers are commonly assumed to be complex and need to be trained on the
same datasets as students. This leads to a time-consuming training process. The
recent study shows vanilla KD plays a similar role as label smoothing and
develops teacher-free KD, being efficient and mitigating the issue of learning
from heavy teachers. But because teacher-free KD relies on manually-crafted
output distributions kept the same for all data instances belonging to the same
class, its flexibility and performance are relatively limited. To address the
above issues, this paper proposes en efficient knowledge distillation learning
framework LW-KD, short for lightweight knowledge distillation. It firstly
trains a lightweight teacher network on a synthesized simple dataset, with an
adjustable class number equal to that of a target dataset. The teacher then
generates soft target whereby an enhanced KD loss could guide student learning,
which is a combination of KD loss and adversarial loss for making student
output indistinguishable from the output of the teacher. Experiments on several
public datasets with different modalities demonstrate LWKD is effective and
efficient, showing the rationality of its main design principles.
- Abstract(参考訳): 知識蒸留(KD)は、学習モデルの圧縮に有効なフレームワークであり、訓練された教師が生み出すソフトターゲットを模倣するために、小さな学生ネットワークを必要とする学生-教師パラダイムによって実現されている。
しかし、教師は一般的に複雑であり、学生と同じデータセットで訓練する必要があると仮定される。
これは時間を要するトレーニングプロセスにつながります。
最近の研究では、バニラKDがラベルの平滑化と同じような役割を担い、教師なしKDを効率的に開発し、重質な教師からの学習を軽減している。
しかし、教師なしのKDは、同じクラスに属するすべてのデータインスタンスに対して、手作りの出力分布に依存しているため、その柔軟性と性能は比較的限られている。
以上の課題に対処するため,本論文では,軽量な知識蒸留のための,効率的な知識蒸留学習フレームワーク LW-KD を提案する。
まず、ターゲットデータセットと同じ調整可能なクラス番号で、合成された単純なデータセット上で軽量な教師ネットワークをトレーニングする。
そして、教師はソフトターゲットを生成し、強化されたkd損失は、教師の出力と区別できないkd損失と敵対的損失の組み合わせである学生学習を導くことができる。
異なるモダリティを持ついくつかの公開データセットの実験では、LWKDは効率的かつ効率的であることが示され、主要な設計原則の合理性を示している。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。
我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。