論文の概要: Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation
- arxiv url: http://arxiv.org/abs/2112.04840v1
- Date: Thu, 9 Dec 2021 11:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:57:51.644147
- Title: Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation
- Title(参考訳): ランク模倣と予測誘導特徴模倣による物体検出のための知識蒸留
- Authors: Gang Li, Xiang Li, Yujie Wang, Shanshan Zhang, Yichao Wu, Ding Liang
- Abstract要約: 本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
- 参考スコア(独自算出の注目度): 34.441349114336994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a widely-used technology to inherit
information from cumbersome teacher models to compact student models,
consequently realizing model compression and acceleration. Compared with image
classification, object detection is a more complex task, and designing specific
KD methods for object detection is non-trivial. In this work, we elaborately
study the behaviour difference between the teacher and student detection
models, and obtain two intriguing observations: First, the teacher and student
rank their detected candidate boxes quite differently, which results in their
precision discrepancy. Second, there is a considerable gap between the feature
response differences and prediction differences between teacher and student,
indicating that equally imitating all the feature maps of the teacher is the
sub-optimal choice for improving the student's accuracy. Based on the two
observations, we propose Rank Mimicking (RM) and Prediction-guided Feature
Imitation (PFI) for distilling one-stage detectors, respectively. RM takes the
rank of candidate boxes from teachers as a new form of knowledge to distill,
which consistently outperforms the traditional soft label distillation. PFI
attempts to correlate feature differences with prediction differences, making
feature imitation directly help to improve the student's accuracy. On MS COCO
and PASCAL VOC benchmarks, extensive experiments are conducted on various
detectors with different backbones to validate the effectiveness of our method.
Specifically, RetinaNet with ResNet50 achieves 40.4% mAP in MS COCO, which is
3.5% higher than its baseline, and also outperforms previous KD methods.
- Abstract(参考訳): 知識蒸留(KD)は、面倒な教師モデルからコンパクトな学生モデルに情報を継承し、モデル圧縮と加速を実現するために広く使われている技術である。
画像分類と比較すると、オブジェクト検出はより複雑なタスクであり、オブジェクト検出のための特定のkdメソッドを設計することは自明ではない。
本研究は,教師と生徒の行動差を詳細に研究し,まず,教師と生徒が検出した候補箱を全く異なるランクでランク付けし,精度の相違をもたらす2つの興味深い観察結果を得た。
第2に,教師と生徒間の特徴応答差と予測差の間には大きなギャップがあり,教師のすべての特徴マップを等しく模倣することが,生徒の精度を向上させるための準最適選択であることを示す。
2つの観測結果に基づいて, 1段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
rmは教師の候補ボックスのランクを、従来のソフトラベル蒸留を一貫して上回る新しい知識として取り上げている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
MS COCOとPASCAL VOCのベンチマークでは,バックボーンの異なる様々な検出器で広範囲に実験を行い,本手法の有効性を検証した。
具体的には、ResNet50のRetinaNetはMS COCOで40.4%のmAPを達成しており、これはベースラインよりも3.5%高い。
関連論文リスト
- Gradient-Guided Knowledge Distillation for Object Detectors [3.236217153362305]
グラディエント誘導型知識蒸留(GKD)という,物体検出における知識蒸留の新しい手法を提案する。
我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。
KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-07T21:09:09Z) - PKD: General Distillation Framework for Object Detectors via Pearson
Correlation Coefficient [18.782520279344553]
この論文は、異種教師検出器によるFPNの優れた特徴が学生の助けとなることを実証的に見出した。
そこで本研究では,教師の関連情報に焦点を合わせるために,ピアソン相関係数を用いた特徴の模倣を提案する。
提案手法は,既存の検出KD法より常に優れており,同質・異質な学生・教師のペアに対しても有効である。
論文 参考訳(メタデータ) (2022-07-05T13:37:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。