論文の概要: CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection
- arxiv url: http://arxiv.org/abs/2306.11369v1
- Date: Tue, 20 Jun 2023 08:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:03:45.886906
- Title: CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection
- Title(参考訳): CrossKD:高密度物体検出のためのクロスヘッド知識蒸留
- Authors: Jiabao Wang, Yuming Chen, Zhaohui Zheng, Xiang Li, Ming-Ming Cheng,
Qibin Hou
- Abstract要約: 知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる簡易かつ効果的な蒸留方式を提案する。
われわれのCrossKDは、GFL ResNet-50の平均精度を40.2から43.7まで1倍に向上させ、オブジェクト検出のための既存のKDメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 84.59710875536364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) has been validated as an effective model
compression technique for learning compact object detectors. Existing
state-of-the-art KD methods for object detection are mostly based on feature
imitation, which is generally observed to be better than prediction mimicking.
In this paper, we show that the inconsistency of the optimization objectives
between the ground-truth signals and distillation targets is the key reason for
the inefficiency of prediction mimicking. To alleviate this issue, we present a
simple yet effective distillation scheme, termed CrossKD, which delivers the
intermediate features of the student's detection head to the teacher's
detection head. The resulting cross-head predictions are then forced to mimic
the teacher's predictions. Such a distillation manner relieves the student's
head from receiving contradictory supervision signals from the ground-truth
annotations and the teacher's predictions, greatly improving the student's
detection performance. On MS COCO, with only prediction mimicking losses
applied, our CrossKD boosts the average precision of GFL ResNet-50 with 1x
training schedule from 40.2 to 43.7, outperforming all existing KD methods for
object detection. Code is available at https://github.com/jbwang1997/CrossKD.
- Abstract(参考訳): 知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。
既存のオブジェクト検出のための最先端KD法は、主に特徴模倣に基づいているが、一般的には予測模倣よりも優れていると考えられている。
本稿では, 地中構造信号と蒸留目標との最適化目標の不整合が, 予測模倣の非効率性の鍵となる理由であることを示す。
この問題を軽減するために,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる簡易かつ効果的な蒸留方式を提案する。
結果として生じるクロスヘッド予測は、教師の予測を模倣するよう強制される。
このような蒸留法により、生徒の頭部は、地中アノテーションや教師の予測から矛盾する監督信号を受け取れなくなり、学生の検知性能が大幅に向上する。
MS COCOでは、損失の予測のみを適用した場合、CrossKDはGFL ResNet-50の平均精度を40.2から43.7に引き上げ、既存のKD法よりもオブジェクト検出に優れる。
コードはhttps://github.com/jbwang1997/CrossKDで入手できる。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Gradient-Guided Knowledge Distillation for Object Detectors [3.236217153362305]
グラディエント誘導型知識蒸留(GKD)という,物体検出における知識蒸留の新しい手法を提案する。
我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。
KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-07T21:09:09Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。