論文の概要: Decoupled Knowledge with Ensemble Learning for Online Distillation
- arxiv url: http://arxiv.org/abs/2312.11218v1
- Date: Mon, 18 Dec 2023 14:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:55:52.008943
- Title: Decoupled Knowledge with Ensemble Learning for Online Distillation
- Title(参考訳): オンライン蒸留のためのアンサンブル学習による分離知識
- Authors: Baitan Shao, Ying Chen
- Abstract要約: オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
- 参考スコア(独自算出の注目度): 3.794605440322862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline distillation is a two-stage pipeline that requires expensive
resources to train a teacher network and then distill the knowledge to a
student for deployment. Online knowledge distillation, on the other hand, is a
one-stage strategy that alleviates the requirement with mutual learning and
collaborative learning. Recent peer collaborative learning (PCL) integrates
online ensemble, collaboration of base networks and temporal mean teacher to
construct effective knowledge. However, the model collapses occasionally in PCL
due to high homogenization between the student and the teacher. In this paper,
the cause of the high homogenization is analyzed and the solution is presented.
A decoupled knowledge for online knowledge distillation is generated by an
independent teacher, separate from the student. Such design can increase the
diversity between the networks and reduce the possibility of model collapse. To
obtain early decoupled knowledge, an initialization scheme for the teacher is
devised, and a 2D geometry-based analysis experiment is conducted under ideal
conditions to showcase the effectiveness of this scheme. Moreover, to improve
the teacher's supervisory resilience, a decaying ensemble scheme is devised. It
assembles the knowledge of the teacher to which a dynamic weight which is large
at the start of the training and gradually decreases with the training process
is assigned. The assembled knowledge serves as a strong teacher during the
early training and the decreased-weight-assembled knowledge can eliminate the
distribution deviation under the potentially overfitted teacher's supervision.
A Monte Carlo-based simulation is conducted to evaluate the convergence.
Extensive experiments on CIFAR-10, CIFAR-100 and TinyImageNet show the
superiority of our method. Ablation studies and further analysis demonstrate
the effectiveness.
- Abstract(参考訳): オフライン蒸留は2段階のパイプラインであり、教師のネットワークを訓練し、その知識を学生に供給するためには高価なリソースを必要とする。
一方、オンライン知識蒸留は、相互学習と協調学習による要求を緩和する一段階戦略である。
最近のピアコラボレーティブラーニング(pcl)は、効果的な知識を構築するために、オンラインアンサンブル、ベースネットワークと時間平均教師のコラボレーションを統合する。
しかし,PCLでは,生徒と教師の同質性が高いため,モデルが時々崩壊する。
本稿では,高い均質化の原因を解析し,その解を提示する。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
このような設計はネットワーク間の多様性を高め、モデル崩壊の可能性を低減する。
早期の分別知識を得るために,教師の初期化手法を考案し,理想条件下で2次元幾何学に基づく解析実験を行い,その効果を示す。
また、教師の指導力を向上させるために、減衰するアンサンブル方式を考案した。
トレーニング開始時に大きく、トレーニングの過程で徐々に減少するダイナミックウェイトが割り当てられる教師の知識を組み立てる。
組み立てられた知識は、初期の訓練の間、強固な教師として機能し、重み付けの少ない知識は、潜在的に過剰な教師の監督下での分布偏差を取り除くことができる。
この収束を評価するためにモンテカルロに基づくシミュレーションを行う。
CIFAR-10, CIFAR-100, TinyImageNetの大規模実験により, 本手法の優位性を示した。
アブレーション研究とさらなる分析は効果を示す。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Student Network Learning via Evolutionary Knowledge Distillation [22.030934154498205]
教師知識の伝達効率を改善するための進化的知識蒸留手法を提案する。
進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。
このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。
論文 参考訳(メタデータ) (2021-03-23T02:07:15Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Peer Collaborative Learning for Online Knowledge Distillation [69.29602103582782]
Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
論文 参考訳(メタデータ) (2020-06-07T13:21:52Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。