論文の概要: Distilling Object Detectors with Task Adaptive Regularization
- arxiv url: http://arxiv.org/abs/2006.13108v1
- Date: Tue, 23 Jun 2020 15:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:18:42.366372
- Title: Distilling Object Detectors with Task Adaptive Regularization
- Title(参考訳): タスク適応正則化による蒸留物体検出器
- Authors: Ruoyu Sun, Fuhui Tang, Xiaopeng Zhang, Hongkai Xiong, Qi Tian
- Abstract要約: 現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
- 参考スコア(独自算出の注目度): 97.52935611385179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art object detectors are at the expense of high
computational costs and are hard to deploy to low-end devices. Knowledge
distillation, which aims at training a smaller student network by transferring
knowledge from a larger teacher model, is one of the promising solutions for
model miniaturization. In this paper, we investigate each module of a typical
detector in depth, and propose a general distillation framework that adaptively
transfers knowledge from teacher to student according to the task specific
priors. The intuition is that simply distilling all information from teacher to
student is not advisable, instead we should only borrow priors from the teacher
model where the student cannot perform well. Towards this goal, we propose a
region proposal sharing mechanism to interflow region responses between the
teacher and student models. Based on this, we adaptively transfer knowledge at
three levels, \emph{i.e.}, feature backbone, classification head, and bounding
box regression head, according to which model performs more reasonably.
Furthermore, considering that it would introduce optimization dilemma when
minimizing distillation loss and detection loss simultaneously, we propose a
distillation decay strategy to help improve model generalization via gradually
reducing the distillation penalty. Experiments on widely used detection
benchmarks demonstrate the effectiveness of our method. In particular, using
Faster R-CNN with FPN as an instantiation, we achieve an accuracy of $39.0\%$
with Resnet-50 on COCO dataset, which surpasses the baseline $36.3\%$ by
$2.7\%$ points, and even better than the teacher model with $38.5\%$ mAP.
- Abstract(参考訳): 現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが難しい。
より大きな教師モデルから知識を移し、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
本稿では,一般的な検出器の各モジュールを深く調査し,タスク固有の優先順位に応じて教師から生徒へ知識を適応的に伝達する汎用蒸留フレームワークを提案する。
教師から生徒へ全ての情報を蒸留するだけでは不可能であり、学生がうまく機能しない教師モデルから先行情報を借用するべきだという直感である。
そこで本研究では,教師と生徒モデル間の地域対応を相互に伝達する地域提案共有機構を提案する。
これに基づいて,モデルがより合理的に機能する3つのレベル,すなわち,機能バックボーン,分類ヘッド,バウンディングボックス回帰ヘッドの知識を適応的に伝達する。
さらに, 蒸留損失と検出損失を同時に最小化する際の最適化ジレンマを導入することを考えると, 蒸留ペナルティを徐々に減らし, モデル一般化を改善するための蒸留崩壊戦略を提案する。
広く用いられている検出ベンチマーク実験により,本手法の有効性が示された。
特に、FPNをインスタンスとしてFaster R-CNNを使用することで、COCOデータセット上でResnet-50で39.0\%の精度を達成し、ベースラインの36.3\%を2.7\%のポイントで上回り、38.5\%のmAPを持つ教師モデルよりもさらに優れている。
関連論文リスト
- Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - General Instance Distillation for Object Detection [12.720908566642812]
RetinaNet with ResNet-50は、データセット上のGIDによるmAPで39.1%を達成し、ベースライン36.2%を2.9%上回り、さらに38.1%APを持つResNet-101ベースの教師モデルよりも優れています。
論文 参考訳(メタデータ) (2021-03-03T11:41:26Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。