論文の概要: Class-aware Information for Logit-based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2211.14773v1
- Date: Sun, 27 Nov 2022 09:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:24:38.321451
- Title: Class-aware Information for Logit-based Knowledge Distillation
- Title(参考訳): ロジット型知識蒸留のためのクラスアウェア情報
- Authors: Shuoxi Zhang, Hanpeng Liu, John E. Hopcroft, Kun He
- Abstract要約: そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
- 参考スコア(独自算出の注目度): 16.634819319915923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation aims to transfer knowledge to the student model by
utilizing the predictions/features of the teacher model, and feature-based
distillation has recently shown its superiority over logit-based distillation.
However, due to the cumbersome computation and storage of extra feature
transformation, the training overhead of feature-based methods is much higher
than that of logit-based distillation. In this work, we revisit the logit-based
knowledge distillation, and observe that the existing logit-based distillation
methods treat the prediction logits only in the instance level, while many
other useful semantic information is overlooked. To address this issue, we
propose a Class-aware Logit Knowledge Distillation (CLKD) method, that extents
the logit distillation in both instance-level and class-level. CLKD enables the
student model mimic higher semantic information from the teacher model, hence
improving the distillation performance. We further introduce a novel loss
called Class Correlation Loss to force the student learn the inherent
class-level correlation of the teacher. Empirical comparisons demonstrate the
superiority of the proposed method over several prevailing logit-based methods
and feature-based methods, in which CLKD achieves compelling results on various
visual classification tasks and outperforms the state-of-the-art baselines.
- Abstract(参考訳): 知識蒸留は, 教師モデルの予測・特徴を利用して, 学生モデルに知識を伝達することを目的としており, 特徴ベース蒸留は近年, ロジットベース蒸留よりも優位性を示している。
しかしながら、余分な計算と余分な機能変換の保存のため、機能ベースのメソッドのトレーニングオーバーヘッドは、ロジットベースの蒸留よりもずっと高い。
本稿では,ロジットベースの知識蒸留を再検討し,既存のロジットベースの蒸留方法がインスタンスレベルでのみ予測ロジットを処理し,他の有用な意味情報を見落としていることを観察する。
この問題に対処するため、我々は、インスタンスレベルとクラスレベルの両方でロジト蒸留を拡大するクラス対応ロジト知識蒸留法(CLKD)を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
さらに,教師のクラスレベルの相関を学習させるために,クラス相関損失と呼ばれる新たな損失を導入する。
実験的な比較では,複数の一般的なロジット法や特徴に基づく手法よりも提案手法の方が優れていることを示す。
関連論文リスト
- DistillCSE: Distilled Contrastive Learning for Sentence Embeddings [32.6620719893457]
本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。
DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。
本稿では, 暗黙の正規化としてのグループ-Pシャッフル戦略と, 複数の教師コンポーネントのロジット平均化という, 知識蒸留の単純かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-10-20T13:45:59Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Knowledge Distillation from Single to Multi Labels: an Empirical Study [14.12487391004319]
クラス活性化マップ(CAM)に基づく新しい蒸留法を提案する。
以上の結果から,ロジット法はマルチラベル分類に適していないことが示唆された。
そこで本研究では,適切な暗黒知識にクラス情報を導入し,最終分類結果と高い相関性を持たせることを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:39:01Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [75.59791764353459]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。