論文の概要: Collaborative Teacher-Student Learning via Multiple Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2101.08471v2
- Date: Wed, 27 Jan 2021 08:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 18:33:03.552851
- Title: Collaborative Teacher-Student Learning via Multiple Knowledge Transfer
- Title(参考訳): 複数知識伝達による協調学習
- Authors: Liyuan Sun, Jianping Gou, Baosheng Yu, Lan Du, Dacheng Tao
- Abstract要約: 複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 79.45526596053728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD), as an efficient and effective model compression
technique, has been receiving considerable attention in deep learning. The key
to its success is to transfer knowledge from a large teacher network to a small
student one. However, most of the existing knowledge distillation methods
consider only one type of knowledge learned from either instance features or
instance relations via a specific distillation strategy in teacher-student
learning. There are few works that explore the idea of transferring different
types of knowledge with different distillation strategies in a unified
framework. Moreover, the frequently used offline distillation suffers from a
limited learning capacity due to the fixed teacher-student architecture. In
this paper we propose a collaborative teacher-student learning via multiple
knowledge transfer (CTSL-MKT) that prompts both self-learning and collaborative
learning. It allows multiple students learn knowledge from both individual
instances and instance relations in a collaborative way. While learning from
themselves with self-distillation, they can also guide each other via online
distillation. The experiments and ablation studies on four image datasets
demonstrate that the proposed CTSL-MKT significantly outperforms the
state-of-the-art KD methods.
- Abstract(参考訳): 知識蒸留(KD)は,効率的なモデル圧縮技術であり,深層学習において大きな注目を集めている。
その成功の鍵は、大きな教師ネットワークから小さな学生ネットワークに知識を移すことである。
しかし、既存の知識蒸留法のほとんどは、教師-学生学習における特定の蒸留戦略を通じて、事例特徴または事例関係から学んだ知識の1種類のみを考察している。
統一された枠組みで異なる蒸留戦略で異なる種類の知識を伝達するというアイデアを探求する研究はほとんどない。
また, 頻繁に使用されるオフライン蒸留は, 定型化による学習能力の低下に苦しむ。
本稿では,多元的知識伝達(ctsl-mkt)を通して,自己学習と協調学習の両方を促す共同学習を提案する。
複数の学生が、個々のインスタンスとインスタンスの関係の両方から、協調的に知識を学ぶことができる。
自己蒸留で自分自身から学ぶ一方で、オンライン蒸留を通じて相互誘導することもできる。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
関連論文リスト
- LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - Cooperative Knowledge Distillation: A Learner Agnostic Approach [15.414204257189596]
我々は、多くのモデルが学生と教師の両方として機能する新しいタイプの知識蒸留を定式化する。
異なるモデルが異なる長所と短所を持っている可能性があるため、すべてのモデルは生徒または教師として振る舞うことができる。
論文 参考訳(メタデータ) (2024-02-02T17:31:50Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Multi-level Knowledge Distillation [13.71183256776644]
教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-01T15:27:15Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。