論文の概要: PKD: General Distillation Framework for Object Detectors via Pearson
Correlation Coefficient
- arxiv url: http://arxiv.org/abs/2207.02039v1
- Date: Tue, 5 Jul 2022 13:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:00:35.696834
- Title: PKD: General Distillation Framework for Object Detectors via Pearson
Correlation Coefficient
- Title(参考訳): PKD:ピアソン相関係数を用いた物体検出のための一般蒸留フレームワーク
- Authors: Weihan Cao, Yifan Zhang, Jianfei Gao, Anda Cheng, Ke Cheng, Jian Cheng
- Abstract要約: この論文は、異種教師検出器によるFPNの優れた特徴が学生の助けとなることを実証的に見出した。
そこで本研究では,教師の関連情報に焦点を合わせるために,ピアソン相関係数を用いた特徴の模倣を提案する。
提案手法は,既存の検出KD法より常に優れており,同質・異質な学生・教師のペアに対しても有効である。
- 参考スコア(独自算出の注目度): 18.782520279344553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation(KD) is a widely-used technique to train compact models
in object detection. However, there is still a lack of study on how to distill
between heterogeneous detectors. In this paper, we empirically find that better
FPN features from a heterogeneous teacher detector can help the student
although their detection heads and label assignments are different. However,
directly aligning the feature maps to distill detectors suffers from two
problems. First, the difference in feature magnitude between the teacher and
the student could enforce overly strict constraints on the student. Second, the
FPN stages and channels with large feature magnitude from the teacher model
could dominate the gradient of distillation loss, which will overwhelm the
effects of other features in KD and introduce much noise. To address the above
issues, we propose to imitate features with Pearson Correlation Coefficient to
focus on the relational information from the teacher and relax constraints on
the magnitude of the features. Our method consistently outperforms the existing
detection KD methods and works for both homogeneous and heterogeneous
student-teacher pairs. Furthermore, it converges faster. With a powerful
MaskRCNN-Swin detector as the teacher, ResNet-50 based RetinaNet and FCOS
achieve 41.5% and 43.9% mAP on COCO2017, which are 4.1\% and 4.8\% higher than
the baseline, respectively.
- Abstract(参考訳): 知識蒸留(KD)は、物体検出においてコンパクトなモデルを訓練するための広く使われている技術である。
しかし、ヘテロジニアス検出器間の蒸留方法についてはまだ研究されていない。
本稿では,異種教師検出器のFPN特性が,検出ヘッドとラベルの割り当てが異なるにもかかわらず,学生を支援することを実証的に見出した。
しかし、機能マップを蒸留検出器に直接合わせると、2つの問題が発生する。
第一に,教師と生徒の特徴量の違いは,生徒に過度に厳しい制約を課すことができた。
第2に, 教師モデルから特徴量が大きいfpnステージとチャネルは, 蒸留損失の勾配を優位にし, kdの他の特徴の影響を圧倒し, ノイズを多く導入する可能性がある。
この問題に対処するために,pearson相関係数を用いた特徴を模倣し,教師からの関係情報に着目し,特徴の大きさに対する制約を緩和する。
本手法は,既存の検出kd法を一貫して上回っており,均質かつ異質な学生・教師ペアに対して有効である。
さらに、より速く収束する。
教師としての強力なMaskRCNN-Swin検出器により、ResNet-50ベースのRetinaNetとFCOSは、それぞれベースラインよりも4.1\%と4.8\%高いCO2017上で41.5%と43.9%のmAPを達成した。
関連論文リスト
- Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Function-Consistent Feature Distillation [99.0460424124249]
特徴蒸留により、生徒は教師の中間的特徴を模倣する。
教師と生徒の機能的類似性を明示的に最適化するFCFD(Function-Consistent Feature Distillation)を提案する。
論文 参考訳(メタデータ) (2023-04-24T05:43:29Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - HEAD: HEtero-Assists Distillation for Heterogeneous Object Detectors [34.90279031067575]
異質な教師と学生のペア間のKDを広範に適用するために検討する。
ヘテロアッシスト蒸留(HEAD)フレームワークを提案する。
提案手法は,現在のKD法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-12T07:01:34Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - Focal and Global Knowledge Distillation for Detectors [23.315649744061982]
オブジェクト検出のためのFGD(Focal and Global Distillation)を提案する。
FGDは前景と背景を分離し、生徒は教師の批判的なピクセルやチャンネルに集中せざるを得ない。
提案手法は特徴写像上の損失のみを計算する必要があるため,FGDを様々な検出器に適用することができる。
論文 参考訳(メタデータ) (2021-11-23T13:04:40Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Distilling Object Detectors via Decoupled Features [69.62967325617632]
より優れた学生検出器を学習するための,デカップリング機能(DeFeat)を用いた新しい蒸留アルゴリズムを提案する。
バックボーンの異なる様々な検出器を用いた実験により, 提案手法の破れが, 被写体検出の最先端蒸留法を上回ることができることを示した。
論文 参考訳(メタデータ) (2021-03-26T13:58:49Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。