論文の概要: Semi-Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2111.11747v1
- Date: Tue, 23 Nov 2021 09:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:26:25.915658
- Title: Semi-Online Knowledge Distillation
- Title(参考訳): 半オンライン知識蒸留
- Authors: Zhiqiang Liu, Yanxia Liu, Chengkai Huang
- Abstract要約: 従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
- 参考スコア(独自算出の注目度): 2.373824287636486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective and stable method for model
compression via knowledge transfer. Conventional knowledge distillation (KD) is
to transfer knowledge from a large and well pre-trained teacher network to a
small student network, which is a one-way process. Recently, deep mutual
learning (DML) has been proposed to help student networks learn collaboratively
and simultaneously. However, to the best of our knowledge, KD and DML have
never been jointly explored in a unified framework to solve the knowledge
distillation problem. In this paper, we investigate that the teacher model
supports more trustworthy supervision signals in KD, while the student captures
more similar behaviors from the teacher in DML. Based on these observations, we
first propose to combine KD with DML in a unified framework. Furthermore, we
propose a Semi-Online Knowledge Distillation (SOKD) method that effectively
improves the performance of the student and the teacher. In this method, we
introduce the peer-teaching training fashion in DML in order to alleviate the
student's imitation difficulty, and also leverage the supervision signals
provided by the well-trained teacher in KD. Besides, we also show our framework
can be easily extended to feature-based distillation methods. Extensive
experiments on CIFAR-100 and ImageNet datasets demonstrate the proposed method
achieves state-of-the-art performance.
- Abstract(参考訳): 知識蒸留は知識伝達によるモデル圧縮の有効かつ安定した方法である。
従来の知識蒸留(kd)は、大きく訓練された教師ネットワークから、一方向のプロセスである小さな学生ネットワークに知識を移すことである。
近年,学生ネットワークの協調学習を支援する深層相互学習(dml)が提案されている。
しかし,我々の知識を最大限活用するために,KDとDMLは統合された枠組みで知識蒸留問題を解くために共同で検討されたことはない。
本稿では,教師モデルがKDの信頼性の高い監視信号をサポートするのに対して,学生はDMLの教師からより類似した振る舞いを捉える。
これらの観測に基づいて、我々はまずKDとDMLを統合フレームワークで組み合わせることを提案する。
さらに,学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留(SOKD)手法を提案する。
本手法では,学生の模倣の難しさを軽減するため,DMLにおけるピア・ティーチング・トレーニング・ファッションを導入し,また,KDでよく訓練された教師が提供した指導信号を活用する。
さらに、我々のフレームワークを機能ベースの蒸留法に簡単に拡張できることも示しています。
CIFAR-100とImageNetデータセットの大規模な実験により,提案手法が最先端の性能を実現することを示す。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。