論文の概要: Cross-View Consistency Regularisation for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.16493v1
- Date: Sat, 21 Dec 2024 05:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:47.812121
- Title: Cross-View Consistency Regularisation for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのクロスビュー一貫性規則化
- Authors: Weijia Zhang, Dongnan Liu, Weidong Cai, Chao Ma,
- Abstract要約: この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
- 参考スコア(独自算出の注目度): 13.918476599394603
- License:
- Abstract: Knowledge distillation (KD) is an established paradigm for transferring privileged knowledge from a cumbersome model to a lightweight and efficient one. In recent years, logit-based KD methods are quickly catching up in performance with their feature-based counterparts. However, previous research has pointed out that logit-based methods are still fundamentally limited by two major issues in their training process, namely overconfident teacher and confirmation bias. Inspired by the success of cross-view learning in fields such as semi-supervised learning, in this work we introduce within-view and cross-view regularisations to standard logit-based distillation frameworks to combat the above cruxes. We also perform confidence-based soft label mining to improve the quality of distilling signals from the teacher, which further mitigates the confirmation bias problem. Despite its apparent simplicity, the proposed Consistency-Regularisation-based Logit Distillation (CRLD) significantly boosts student learning, setting new state-of-the-art results on the standard CIFAR-100, Tiny-ImageNet, and ImageNet datasets across a diversity of teacher and student architectures, whilst introducing no extra network parameters. Orthogonal to on-going logit-based distillation research, our method enjoys excellent generalisation properties and, without bells and whistles, boosts the performance of various existing approaches by considerable margins.
- Abstract(参考訳): 知識蒸留(KD)は、特権的知識を煩雑なモデルから軽量で効率的なものに伝達するための確立されたパラダイムである。
近年、ロジットベースのKDメソッドは、機能ベースのメソッドですぐにパフォーマンスに追いついている。
しかし、以前の研究では、ロジットベースの手法は、トレーニングプロセスにおける2つの主要な問題、すなわち過信教師と確認バイアスによって、基本的に制限されていることが指摘されている。
本研究は,半教師付き学習などの分野におけるクロスビュー学習の成功に触発され,標準的なロジット式蒸留フレームワークにインテリアビューとクロスビュー正規化を導入し,これらの課題に対処する。
また,教師の蒸留信号の品質向上を図るため,信頼性に基づくソフトラベルマイニングを実施し,確認バイアス問題を緩和する。
明らかな単純さにもかかわらず、CRLD(Consistency-Regularisation-based Logit Distillation)は学生の学習を著しく向上させ、CIFAR-100、Tiny-ImageNet、ImageNetデータセットを教師と学生の多様なアーキテクチャに分散させながら、余分なネットワークパラメータを導入していない。
本手法は, ロージット蒸留法と直交して, 優れた一般化特性を享受し, ベルやホイッスルを使わずに, 様々な既存手法の性能をかなりのマージンで向上させる。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z) - Hybrid Discriminative-Generative Training via Contrastive Learning [96.56164427726203]
エネルギーベースモデルのハイブリッド識別・生成訓練の観点から、コントラスト学習と教師あり学習の直接的な関連性を示す。
CIFAR-10 および CIFAR-100 上の WideResNet の分類精度において,エネルギーベース損失の近似の具体的な選択が既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-17T15:50:34Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。