論文の概要: On the Efficiency of Subclass Knowledge Distillation in Classification
Tasks
- arxiv url: http://arxiv.org/abs/2109.05587v1
- Date: Sun, 12 Sep 2021 19:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:29:37.090129
- Title: On the Efficiency of Subclass Knowledge Distillation in Classification
Tasks
- Title(参考訳): 分類課題におけるサブクラス知識蒸留の効率について
- Authors: Ahmad Sajedi and Konstantinos N. Plataniotis
- Abstract要約: サブクラス知識蒸留 (Subclass Knowledge Distillation, SKD) フレームワークは、サブクラスの予測知識を大きな教師モデルからより小さな学生モデルに転送するプロセスである。
このフレームワークは臨床応用、すなわち大腸ポリープバイナリー分類で評価される。
提案されたフレームワークで訓練された軽量で低複雑性の学生は、85.05%のF1スコアを獲得し、2.14%と1.49%のアップを得た。
- 参考スコア(独自算出の注目度): 33.1278647424578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a novel knowledge distillation framework for
classification tasks where information on existing subclasses is available and
taken into consideration. In classification tasks with a small number of
classes or binary detection (two classes) the amount of information transferred
from the teacher to the student network is restricted, thus limiting the
utility of knowledge distillation. Performance can be improved by leveraging
information about possible subclasses within the available classes in the
classification task. To that end, we propose the so-called Subclass Knowledge
Distillation (SKD) framework, which is the process of transferring the
subclasses' prediction knowledge from a large teacher model into a smaller
student one. Through SKD, additional meaningful information which is not in the
teacher's class logits but exists in subclasses (e.g., similarities inside
classes) will be conveyed to the student and boost its performance.
Mathematically, we measure how many extra information bits the teacher can
provide for the student via SKD framework. The framework developed is evaluated
in clinical application, namely colorectal polyp binary classification. In this
application, clinician-provided annotations are used to define subclasses based
on the annotation label's variability in a curriculum style of learning. A
lightweight, low complexity student trained with the proposed framework
achieves an F1-score of 85.05%, an improvement of 2.14% and 1.49% gain over the
student that trains without and with conventional knowledge distillation,
respectively. These results show that the extra subclasses' knowledge (i.e.,
0.4656 label bits per training sample in our experiment) can provide more
information about the teacher generalization, and therefore SKD can benefit
from using more information to increase the student performance.
- Abstract(参考訳): 本研究は,既存のサブクラスに関する情報が利用可能で考慮されているタスクを分類するための新しい知識蒸留フレームワークを提案する。
クラス数が少ないクラスやバイナリ検出(2クラス)の分類タスクでは、教師から学生ネットワークに転送される情報の量を制限するため、知識蒸留の有用性が制限される。
分類タスクで利用可能なクラス内で可能なサブクラスに関する情報を活用することで、パフォーマンスを改善することができる。
そこで,我々は,サブクラスの予測知識を大規模教員モデルから小学生モデルへ移行するプロセスである,いわゆるサブクラス知識蒸留(skd)フレームワークを提案する。
SKDを通じて、教師のクラスロジットにはないが、サブクラス(例えばクラス内の類似点)に存在する付加的な有意義な情報が生徒に伝達され、そのパフォーマンスが向上する。
数学的には、教師がSKDフレームワークを通じて、生徒に提供できる余分な情報ビット数を計測する。
本発明の枠組みは臨床応用、すなわち大腸ポリープ二分分類において評価される。
本アプリケーションでは, 臨床医が提供したアノテーションを用いて, 学習のカリキュラムスタイルにおけるアノテーションラベルの変動性に基づいたサブクラスを定義できる。
提案フレームワークで学習した軽量で低複雑性の学生は, 85.05%のf1スコアを達成し, 従来の知識蒸留を伴わずに訓練した生徒よりも2.14%, 1.49%向上した。
これらの結果から,学級別知識(学習サンプル1個あたり0.4656ラベルビット)は教師の一般化に関するより多くの情報を提供することができ,それゆえskdは学生の成績向上により多くの情報を活用することができることがわかった。
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。
本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文 参考訳(メタデータ) (2024-03-27T12:05:22Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection [134.05510658882278]
Cyclic-Bootstrap Labeling (CBL) は、弱制御されたオブジェクト検出パイプラインである。
様々な改良モジュールを活用するために、重み付けされた指数移動平均戦略を使用する。
重み付きアンサンブル型教師ネットワークの出力を活用するために, クラス別ランキング蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-11T07:57:17Z) - Low-complexity deep learning frameworks for acoustic scene
classification using teacher-student scheme and multiple spectrograms [59.86658316440461]
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要求を満たすとともに,57.4%の最高の分類精度を達成した。
論文 参考訳(メタデータ) (2023-05-16T14:21:45Z) - Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。
Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。
この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文 参考訳(メタデータ) (2023-03-15T03:59:27Z) - Subclass Knowledge Distillation with Known Subclass Labels [28.182027210008656]
サブクラス知識蒸留 (Subclass Knowledge Distillation, SKD) は、予測されたサブクラスの知識を教師からより小さな学生に伝達するプロセスである。
SKDフレームワークで訓練された軽量で低複雑さの学生は、85.05%のF1スコア、1.47%の改善、そして従来の知識蒸留なしで訓練された学生よりも2.10%向上した。
論文 参考訳(メタデータ) (2022-07-17T03:14:05Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Multi-Teacher Knowledge Distillation for Incremental Implicitly-Refined
Classification [37.14755431285735]
インクリメンタルラーニングのためのMTKD(Multi-Teacher Knowledge Distillation)戦略を提案する。
超クラス知識の保存には、初期モデルをスーパークラス教師として利用し、学生モデルの超クラス知識を蒸留する。
本稿では、冗長な予測を減らすために、Top-k予測制限と呼ばれる後処理機構を提案する。
論文 参考訳(メタデータ) (2022-02-23T09:51:40Z) - Subclass Distillation [94.18870689772544]
本研究では,教師の一般化能力のほとんどを学生に転移させることが可能であることを示す。
既知の、自然なサブクラスが存在するデータセットに対して、教師が同様のサブクラスを学ぶことを示す。
サブクラスが不明なクリックスルーデータセットの場合、サブクラス蒸留により、学生はより速く、より良く学習できることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。