論文の概要: Subclass Distillation
- arxiv url: http://arxiv.org/abs/2002.03936v2
- Date: Wed, 10 Jun 2020 18:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:00:50.727352
- Title: Subclass Distillation
- Title(参考訳): サブクラス蒸留
- Authors: Rafael M\"uller, Simon Kornblith, Geoffrey Hinton
- Abstract要約: 本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。
既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
- 参考スコア(独自算出の注目度): 94.18870689772544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After a large "teacher" neural network has been trained on labeled data, the
probabilities that the teacher assigns to incorrect classes reveal a lot of
information about the way in which the teacher generalizes. By training a small
"student" model to match these probabilities, it is possible to transfer most
of the generalization ability of the teacher to the student, often producing a
much better small model than directly training the student on the training
data. The transfer works best when there are many possible classes because more
is then revealed about the function learned by the teacher, but in cases where
there are only a few possible classes we show that we can improve the transfer
by forcing the teacher to divide each class into many subclasses that it
invents during the supervised training. The student is then trained to match
the subclass probabilities. For datasets where there are known, natural
subclasses we demonstrate that the teacher learns similar subclasses and these
improve distillation. For clickthrough datasets where the subclasses are
unknown we demonstrate that subclass distillation allows the student to learn
faster and better.
- Abstract(参考訳): 大きな「教師」ニューラルネットワークがラベル付きデータに基づいて訓練された後、教師が誤ったクラスに割り当てる確率は、教師が一般化する方法に関する多くの情報を明らかにする。
これらの確率に合致するように小さな「学生」モデルを訓練することで、教師の一般化能力のほとんどを生徒に移すことができ、訓練データから直接生徒を訓練するよりも、はるかに小さなモデルを作ることができる。
転校は、教師が学習した関数についてより多くのことが明らかになるため、可能なクラスが多数ある場合に最もうまく機能するが、いくつかの可能なクラスがある場合、教師が教師が教師が監督訓練中に考案した多くのサブクラスに分割させることによって、転校を改善することができる。
生徒はサブクラスの確率に合致するように訓練される。
既知の自然サブクラスが存在するデータセットに対して、教師が同様のサブクラスを学習し、蒸留を改善することを実証する。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速くより良く学習できることを示す。
関連論文リスト
- Subclass Knowledge Distillation with Known Subclass Labels [28.182027210008656]
サブクラス知識蒸留 (Subclass Knowledge Distillation, SKD) は、予測されたサブクラスの知識を教師からより小さな学生に伝達するプロセスである。
SKDフレームワークで訓練された軽量で低複雑さの学生は、85.05%のF1スコア、1.47%の改善、そして従来の知識蒸留なしで訓練された学生よりも2.10%向上した。
論文 参考訳(メタデータ) (2022-07-17T03:14:05Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Multi-Teacher Knowledge Distillation for Incremental Implicitly-Refined
Classification [37.14755431285735]
インクリメンタルラーニングのためのMTKD(Multi-Teacher Knowledge Distillation)戦略を提案する。
超クラス知識の保存には、初期モデルをスーパークラス教師として利用し、学生モデルの超クラス知識を蒸留する。
本稿では、冗長な予測を減らすために、Top-k予測制限と呼ばれる後処理機構を提案する。
論文 参考訳(メタデータ) (2022-02-23T09:51:40Z) - Long-tail Recognition via Compositional Knowledge Transfer [60.03764547406601]
末尾クラスの少数ショット問題に対処する長尾認識のための新しい戦略を導入する。
我々の目標は、情報に富んだ共通クラスから得られた知識を、意味的に類似しているがデータに富む稀なクラスに伝達することである。
実験結果から,本手法は稀なクラスにおいて,堅牢な共通クラス性能を維持しつつ,大幅な性能向上を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-13T15:48:59Z) - On the Efficiency of Subclass Knowledge Distillation in Classification
Tasks [33.1278647424578]
サブクラス知識蒸留 (Subclass Knowledge Distillation, SKD) フレームワークは、サブクラスの予測知識を大きな教師モデルからより小さな学生モデルに転送するプロセスである。
このフレームワークは臨床応用、すなわち大腸ポリープバイナリー分類で評価される。
提案されたフレームワークで訓練された軽量で低複雑性の学生は、85.05%のF1スコアを獲得し、2.14%と1.49%のアップを得た。
論文 参考訳(メタデータ) (2021-09-12T19:04:44Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。