論文の概要: Scale Decoupled Distillation
- arxiv url: http://arxiv.org/abs/2403.13512v1
- Date: Wed, 20 Mar 2024 11:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:07:38.334677
- Title: Scale Decoupled Distillation
- Title(参考訳): スケール脱カップリング蒸留
- Authors: Shicai Wei Chunbo Luo Yang Luo,
- Abstract要約: 既存のロジットベースの手法は,グローバルなロジット出力のみを利用するため,準最適である可能性がある。
本稿では,ロジット知識蒸留のためのスケールデカップリング蒸留(SDD)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logit knowledge distillation attracts increasing attention due to its practicality in recent studies. However, it often suffers inferior performance compared to the feature knowledge distillation. In this paper, we argue that existing logit-based methods may be sub-optimal since they only leverage the global logit output that couples multiple semantic knowledge. This may transfer ambiguous knowledge to the student and mislead its learning. To this end, we propose a simple but effective method, i.e., Scale Decoupled Distillation (SDD), for logit knowledge distillation. SDD decouples the global logit output into multiple local logit outputs and establishes distillation pipelines for them. This helps the student to mine and inherit fine-grained and unambiguous logit knowledge. Moreover, the decoupled knowledge can be further divided into consistent and complementary logit knowledge that transfers the semantic information and sample ambiguity, respectively. By increasing the weight of complementary parts, SDD can guide the student to focus more on ambiguous samples, improving its discrimination ability. Extensive experiments on several benchmark datasets demonstrate the effectiveness of SDD for wide teacher-student pairs, especially in the fine-grained classification task. Code is available at: https://github.com/shicaiwei123/SDD-CVPR2024
- Abstract(参考訳): 論理知識の蒸留は、近年の研究でその実用性から注目を集めている。
しかし、特徴知識蒸留に比べて性能が劣ることが多い。
本稿では,複数の意味知識を結合したグローバルロジット出力のみを利用するため,既存のロジットベースの手法が準最適である可能性を議論する。
これは、曖昧な知識を学生に伝え、その学習を誤解させる可能性がある。
そこで本研究では,ロジット知識蒸留のための簡易かつ効果的な方法であるスケールデカップリング蒸留法(SDD)を提案する。
SDDはグローバルロジット出力を複数のローカルロジット出力に分離し、蒸留パイプラインを確立する。
これにより、学生は細粒度で曖昧なロジット知識のマイニングと継承に役立ちます。
さらに、分離された知識は、それぞれ意味情報とサンプルのあいまいさを伝達する相補的なロジット知識と相補的なロジット知識にさらに分けることができる。
補足部分の重量を増やすことで、SDDは学生にあいまいなサンプルに集中させ、識別能力を向上させることができる。
いくつかのベンチマークデータセットに対する大規模な実験は、特にきめ細かい分類タスクにおいて、幅広い教師と学生のペアに対するSDDの有効性を示す。
コードは以下の通り。 https://github.com/shicaiwei123/SDD-CVPR2024
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Multi-to-Single Knowledge Distillation for Point Cloud Semantic
Segmentation [41.02741249858771]
本稿では,3Dポイントクラウドセマンティックセマンティックセグメンテーションタスクのための多種間知識蒸留フレームワークを提案する。
マルチスキャンのすべてのポイントを直接フューズする代わりに、以前に定義されたハードクラスに属するインスタンスだけが融合する。
論文 参考訳(メタデータ) (2023-04-28T12:17:08Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - FAKD: Feature Augmented Knowledge Distillation for Semantic Segmentation [17.294737459735675]
セグメンテーションにおける知識蒸留のためのデータ拡張について検討する。
特徴空間における意味的方向の最近の進歩に触発されて, 効率的な蒸留のために, 特徴空間に拡張を加えることを提案する。
論文 参考訳(メタデータ) (2022-08-30T10:55:31Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。