論文の概要: Dynamic Rectification Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2201.11319v1
- Date: Thu, 27 Jan 2022 04:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 00:05:17.048910
- Title: Dynamic Rectification Knowledge Distillation
- Title(参考訳): ダイナミックリクティフィケーション知識蒸留
- Authors: Fahad Rahman Amik, Ahnaf Ismat Tasin, Silvia Ahmed, M. M. Lutfe Elahi,
Nabeel Mohammed
- Abstract要約: ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation is a technique which aims to utilize dark knowledge to
compress and transfer information from a vast, well-trained neural network
(teacher model) to a smaller, less capable neural network (student model) with
improved inference efficiency. This approach of distilling knowledge has gained
popularity as a result of the prohibitively complicated nature of such
cumbersome models for deployment on edge computing devices. Generally, the
teacher models used to teach smaller student models are cumbersome in nature
and expensive to train. To eliminate the necessity for a cumbersome teacher
model completely, we propose a simple yet effective knowledge distillation
framework that we termed Dynamic Rectification Knowledge Distillation (DR-KD).
Our method transforms the student into its own teacher, and if the self-teacher
makes wrong predictions while distilling information, the error is rectified
prior to the knowledge being distilled. Specifically, the teacher targets are
dynamically tweaked by the agency of ground-truth while distilling the
knowledge gained from traditional training. Our proposed DR-KD performs
remarkably well in the absence of a sophisticated cumbersome teacher model and
achieves comparable performance to existing state-of-the-art teacher-free
knowledge distillation frameworks when implemented by a low-cost dynamic
mannered teacher. Our approach is all-encompassing and can be utilized for any
deep neural network training that requires categorization or object
recognition. DR-KD enhances the test accuracy on Tiny ImageNet by 2.65% over
prominent baseline models, which is significantly better than any other
knowledge distillation approach while requiring no additional training costs.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation)とは、暗黒知識を活用し、広く訓練されたニューラルネットワーク(教師モデル)からより小さく、能力の低いニューラルネットワーク(学生モデル)への情報を圧縮・転送し、推論効率を向上させる技術である。
知識を蒸留するこのアプローチは、エッジコンピューティングデバイスにデプロイするための面倒なモデルが極めて複雑であることの結果として人気を集めている。
一般的に、小学生のモデルを教えるのに使用される教師モデルは、自然にぎこちなく、訓練に費用がかかる。
面倒な教師モデルの必要性を完全に排除するため,我々は動的整流知識蒸留(dr-kd)と呼ぶ,単純かつ効果的な知識蒸留フレームワークを提案する。
本手法は,学生を教師に転換し,自己学習者が情報を蒸留しながら誤った予測を行った場合,知識が蒸留される前に誤りを訂正する。
具体的には、教師の目標を従来の訓練から得た知識を蒸留しながら、地道の機関によって動的に調整する。
提案するDR-KDは,高度で難易度の高い教師モデルが欠如している場合において極めて優れた性能を示し,低コストな動的仕組教師によって実装された場合,既存の最先端の教師なし知識蒸留フレームワークに匹敵する性能を発揮する。
我々のアプローチは全アクセス可能であり、分類やオブジェクト認識を必要とするディープニューラルネットワークトレーニングに利用できる。
DR-KDはTiny ImageNetの試験精度を2.65%向上させるが、これは他の知識蒸留法よりも大幅に向上し、追加の訓練コストは不要である。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Student-friendly Knowledge Distillation [1.5469452301122173]
そこで我々は,教師による知識表現の簡易化を目的として,学生に優しい知識蒸留(SKD)を提案する。
SKDは、軟化処理と学習簡略化器とを含む。
CIFAR-100とImageNetのデータセットを用いた実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-18T11:44:30Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。
これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。
実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-12-08T11:09:22Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。