論文の概要: Student-friendly Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2305.10893v1
- Date: Thu, 18 May 2023 11:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:36:03.607227
- Title: Student-friendly Knowledge Distillation
- Title(参考訳): 学生に優しい知識蒸留
- Authors: Mengyang Yuan, Bo Lang, Fengnan Quan
- Abstract要約: そこで我々は,教師による知識表現の簡易化を目的として,学生に優しい知識蒸留(SKD)を提案する。
SKDは、軟化処理と学習簡略化器とを含む。
CIFAR-100とImageNetのデータセットを用いた実験結果から,本手法が最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 1.5469452301122173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In knowledge distillation, the knowledge from the teacher model is often too
complex for the student model to thoroughly process. However, good teachers in
real life always simplify complex material before teaching it to students.
Inspired by this fact, we propose student-friendly knowledge distillation (SKD)
to simplify teacher output into new knowledge representations, which makes the
learning of the student model easier and more effective. SKD contains a
softening processing and a learning simplifier. First, the softening processing
uses the temperature hyperparameter to soften the output logits of the teacher
model, which simplifies the output to some extent and makes it easier for the
learning simplifier to process. The learning simplifier utilizes the attention
mechanism to further simplify the knowledge of the teacher model and is jointly
trained with the student model using the distillation loss, which means that
the process of simplification is correlated with the training objective of the
student model and ensures that the simplified new teacher knowledge
representation is more suitable for the specific student model. Furthermore,
since SKD does not change the form of the distillation loss, it can be easily
combined with other distillation methods that are based on the logits or
features of intermediate layers to enhance its effectiveness. Therefore, SKD
has wide applicability. The experimental results on the CIFAR-100 and ImageNet
datasets show that our method achieves state-of-the-art performance while
maintaining high training efficiency.
- Abstract(参考訳): 知識蒸留では、教師モデルからの知識は、学生モデルが徹底的に処理するには複雑すぎることが多い。
しかし、実生活の良き教師は生徒に教える前に常に複雑な教材を単純化する。
この事実に触発されて,教師による知識表現の簡易化を目的とした学生フレンドリーな知識蒸留(SKD)を提案し,学生モデルの学習を容易かつ効率的にする。
SKDは、軟化処理と学習簡略化器とを含む。
まず, ソフト化処理では, 温度ハイパーパラメータを用いて教師モデルの出力ロジットを軟化し, 出力をある程度単純化し, 学習者による処理を容易にする。
学習簡易化装置は、教師モデルの知識をさらに簡略化するために注意機構を利用し、蒸留損失を用いて生徒モデルと共同で訓練されるので、単純化の過程は、生徒モデルの訓練目的と相関し、簡略化された新しい教師知識表現が特定の生徒モデルに適合することを保証する。
さらに、SKDは蒸留損失の形式を変えないため、中間層のロジットや特徴に基づく他の蒸留法と容易に組み合わせて有効性を高めることができる。
したがって、SKDは広い適用性を持つ。
CIFAR-100 と ImageNet のデータセットを用いた実験結果から,本手法は高いトレーニング効率を維持しつつ,最先端の性能を実現する。
関連論文リスト
- LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。