論文の概要: Peer Collaborative Learning for Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.04147v2
- Date: Wed, 3 Mar 2021 15:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:12:44.207208
- Title: Peer Collaborative Learning for Online Knowledge Distillation
- Title(参考訳): オンライン知識蒸留のためのピアコラボレーション学習
- Authors: Guile Wu and Shaogang Gong
- Abstract要約: Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 69.29602103582782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional knowledge distillation uses a two-stage training strategy to
transfer knowledge from a high-capacity teacher model to a compact student
model, which relies heavily on the pre-trained teacher. Recent online knowledge
distillation alleviates this limitation by collaborative learning, mutual
learning and online ensembling, following a one-stage end-to-end training
fashion. However, collaborative learning and mutual learning fail to construct
an online high-capacity teacher, whilst online ensembling ignores the
collaboration among branches and its logit summation impedes the further
optimisation of the ensemble teacher. In this work, we propose a novel Peer
Collaborative Learning method for online knowledge distillation, which
integrates online ensembling and network collaboration into a unified
framework. Specifically, given a target network, we construct a multi-branch
network for training, in which each branch is called a peer. We perform random
augmentation multiple times on the inputs to peers and assemble feature
representations outputted from peers with an additional classifier as the peer
ensemble teacher. This helps to transfer knowledge from a high-capacity teacher
to peers, and in turn further optimises the ensemble teacher. Meanwhile, we
employ the temporal mean model of each peer as the peer mean teacher to
collaboratively transfer knowledge among peers, which helps each peer to learn
richer knowledge and facilitates to optimise a more stable model with better
generalisation. Extensive experiments on CIFAR-10, CIFAR-100 and ImageNet show
that the proposed method significantly improves the generalisation of various
backbone networks and outperforms the state-of-the-art methods.
- Abstract(参考訳): 伝統的な知識蒸留は、2段階の訓練戦略を用いて、高能力の教師モデルから訓練済みの教師に大きく依存するコンパクトな学生モデルに知識を伝達する。
近年のオンライン知識蒸留は, 協調学習, 相互学習, オンラインアンサンブルによるこの制限を緩和している。
しかし、協調学習と相互学習は、オンライン高能力教師の構築に失敗し、オンラインセンスリングは、支部間の協力を無視し、そのロジット要約は、アンサンブル教師のさらなる最適化を妨げる。
本研究では,オンラインセンシングとネットワークコラボレーションを統合したオンライン知識蒸留のための相互協調学習手法を提案する。
具体的には、対象ネットワークが与えられた場合、各ブランチをピアと呼ぶトレーニング用マルチブランチネットワークを構築する。
ピアへの入力を複数回ランダムに拡張し、ピアから出力された特徴表現をピアアンサンブル教師として追加分類器で組み立てる。
これにより、高能力の教師から仲間に知識を伝達し、さらにアンサンブルの教師を最適化する。
一方,ピア平均教師として各ピアの時間平均モデルを用いて相互に知識を伝達することで,各ピアがより豊かな知識を学習し,より一般化したより安定したモデルを最適化することを支援する。
CIFAR-10, CIFAR-100, ImageNetの大規模な実験により, 提案手法は様々なバックボーンネットワークの一般化を著しく改善し, 最先端の手法よりも優れていた。
関連論文リスト
- Decoupled Knowledge with Ensemble Learning for Online Distillation [3.794605440322862]
オンライン知識蒸留は、相互学習と協調学習による要求を緩和するワンステージ戦略である。
近年のペア協調学習(PCL)では,オンラインアンサンブル,ベースネットワークの協調,時間的平均教師による効果的な知識構築が実現されている。
オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。
論文 参考訳(メタデータ) (2023-12-18T14:08:59Z) - Heterogeneous-Branch Collaborative Learning for Dialogue Generation [11.124375734351826]
協調学習は、十分に訓練された大規模な教師モデルが存在しない場合、一段階のグループ蒸留を効果的に行う方法である。
従来の作業は、同じトレーニング目標と独立した同一トレーニングセットのために、深刻な分岐均一性の問題があった。
本稿では, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。
論文 参考訳(メタデータ) (2023-03-21T06:41:50Z) - Collaborative Multi-Teacher Knowledge Distillation for Learning Low
Bit-width Deep Neural Networks [28.215073725175728]
マルチ教師による知識蒸留とネットワーク量子化を併用した,低ビット幅DNN学習のための新しいフレームワークを提案する。
CIFAR100 と ImageNet のデータセットを用いた実験結果から,本手法で訓練した小型量子化学生モデルによる競争結果が得られた。
論文 参考訳(メタデータ) (2022-10-27T01:03:39Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。