論文の概要: Progressive Class-level Distillation
- arxiv url: http://arxiv.org/abs/2505.24310v1
- Date: Fri, 30 May 2025 07:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.835992
- Title: Progressive Class-level Distillation
- Title(参考訳): プログレッシブなクラスレベルの蒸留
- Authors: Jiayan Li, Jun Li, Zhourui Zhang, Jianhua Xu,
- Abstract要約: 本稿では,ロジット蒸留のためのプログレッシブクラスレベル蒸留法を提案する。
我々のPCD手法は段階的に知識伝達を行う。
本手法は,分類タスクと検出タスクの両方において最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 4.33169417430713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In knowledge distillation (KD), logit distillation (LD) aims to transfer class-level knowledge from a more powerful teacher network to a small student model via accurate teacher-student alignment at the logits level. Since high-confidence object classes usually dominate the distillation process, low-probability classes which also contain discriminating information are downplayed in conventional methods, leading to insufficient knowledge transfer. To address this issue, we propose a simple yet effective LD method termed Progressive Class-level Distillation (PCD). In contrast to existing methods which perform all-class ensemble distillation, our PCD approach performs stage-wise distillation for step-by-step knowledge transfer. More specifically, we perform ranking on teacher-student logits difference for identifying distillation priority from scratch, and subsequently divide the entire LD process into multiple stages. Next, bidirectional stage-wise distillation incorporating fine-to-coarse progressive learning and reverse coarse-to-fine refinement is conducted, allowing comprehensive knowledge transfer via sufficient logits alignment within separate class groups in different distillation stages. Extension experiments on public benchmarking datasets demonstrate the superiority of our method compared to state-of-the-arts for both classification and detection tasks.
- Abstract(参考訳): 知識蒸留(KD)において、ロジット蒸留(LD)は、クラスレベルの知識をより強力な教師ネットワークから、ロジットレベルで正確な教師と学生のアライメントを通じて小さな学生モデルに伝達することを目的としている。
高信頼度オブジェクトクラスが蒸留プロセスを支配しているため、識別情報も含む低確率クラスは従来の方法ではダウンプレイされ、知識伝達が不十分である。
そこで本研究では,PCD (Progressive Class-level Distillation) と呼ばれるシンプルなLD法を提案する。
本手法は,全級アンサンブル蒸留を行う既存の方法とは対照的に,段階的に段階的に知識伝達を行う手法である。
具体的には、スクラッチから蒸留優先度を識別し、LDプロセス全体を複数のステージに分割するために、教師と学生のロジット差のランク付けを行う。
次に, 粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度・粒度を
公開ベンチマークデータセットの拡張実験は, 分類タスクと検出タスクの両方において, 最先端の手法と比較して, 提案手法の優位性を示す。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - LRC-BERT: Latent-representation Contrastive Knowledge Distillation for
Natural Language Understanding [12.208166079145538]
本稿では,角距離面から中間層の出力に適合するコントラスト学習に基づく知識蒸留法lrc-bertを提案する。
GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することで、提案したRC-BERTの性能は既存の最先端手法を上回る。
論文 参考訳(メタデータ) (2020-12-14T08:39:38Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。