論文の概要: Cooperative Knowledge Distillation: A Learner Agnostic Approach
- arxiv url: http://arxiv.org/abs/2402.05942v1
- Date: Fri, 2 Feb 2024 17:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 14:33:58.188988
- Title: Cooperative Knowledge Distillation: A Learner Agnostic Approach
- Title(参考訳): 協調的知識蒸留:学習者非依存的アプローチ
- Authors: Michael Livanos, Ian Davidson, Stephen Wong
- Abstract要約: 我々は、多くのモデルが学生と教師の両方として機能する新しいタイプの知識蒸留を定式化する。
異なるモデルが異なる長所と短所を持っている可能性があるため、すべてのモデルは生徒または教師として振る舞うことができる。
- 参考スコア(独自算出の注目度): 15.414204257189596
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Knowledge distillation is a simple but powerful way to transfer knowledge
between a teacher model to a student model. Existing work suffers from at least
one of the following key limitations in terms of direction and scope of
transfer which restrict its use: all knowledge is transferred from teacher to
student regardless of whether or not that knowledge is useful, the student is
the only one learning in this exchange, and typically distillation transfers
knowledge only from a single teacher to a single student. We formulate a novel
form of knowledge distillation in which many models can act as both students
and teachers which we call cooperative distillation. The models cooperate as
follows: a model (the student) identifies specific deficiencies in it's
performance and searches for another model (the teacher) who encodes learned
knowledge into instructional virtual instances via counterfactual instance
generation. Because different models may have different strengths and
weaknesses, all models can act as either students or teachers (cooperation)
when appropriate and only distill knowledge in areas specific to their
strengths (focus). Since counterfactuals as a paradigm are not tied to any
specific algorithm, we can use this method to distill knowledge between
learners of different architectures, algorithms, and even feature spaces. We
demonstrate that our approach not only outperforms baselines such as transfer
learning, self-supervised learning, and multiple knowledge distillation
algorithms on several datasets, but it can also be used in settings where the
aforementioned techniques cannot.
- Abstract(参考訳): 知識蒸留は、教師モデルと生徒モデルの間で知識を伝達する単純だが強力な方法である。
全ての知識は教師から生徒に受け継がれるが、その知識が役に立つかどうかは問わないが、学生はこの交換の中で唯一の学習であり、通常蒸留は1人の教師から1人の生徒にのみ知識を伝達する。
我々は,協調蒸留と呼ぶ学生と教師の両方として,多くのモデルが機能する新たな知識蒸留形態を定式化する。
モデル(学生)は、その性能の特定の欠陥を特定し、学習した知識を対物インスタンス生成を介して教育仮想インスタンスにエンコードする別のモデル(教師)を探索する。
異なるモデルが異なる強さと弱点を持つ可能性があるため、全てのモデルは学生または教師(協力)として適切に機能し、その強さ(焦点)に特有の分野の知識のみを蒸留することができる。
パラダイムとしての反事実は特定のアルゴリズムに縛られないため、異なるアーキテクチャ、アルゴリズム、さらには特徴空間の学習者間の知識を抽出するためにこの手法を用いることができる。
提案手法は, 転送学習, 自己教師付き学習, および複数の知識蒸留アルゴリズムなどのベースラインを複数のデータセットで上回るだけでなく, 上記の手法では不可能な設定でも利用できることを示す。
関連論文リスト
- Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Multi-level Knowledge Distillation [13.71183256776644]
教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。
MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。
実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-01T15:27:15Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。