論文の概要、ライセンス

# (参考訳) 物体検出器における蒸留像分類器 [全文訳有]

Distilling Image Classifiers in Object Detectors ( http://arxiv.org/abs/2106.05209v1 )

ライセンス: CC BY 4.0
Shuxuan Guo and Jose M. Alvarez and Mathieu Salzmann(参考訳) 知識蒸留は、より強力な教師の知識を活用することで、コンパクトな学生ネットワークの性能を向上させるためのシンプルで効果的な方法である。 それにもかかわらず、知識蒸留文学は、生徒と教師が同じ課題に取り組むシナリオに限定されている。 本稿では,アーキテクチャだけでなくタスク間での知識伝達の問題について検討する。 そこで本研究では,物体検出の事例について検討し,標準検出器-検出器蒸留法に従わず,分類器-検出器間知識伝達フレームワークを導入する。 特に, 分類教師を活用して, 検出者の認識精度と位置推定性能を向上させる手法を提案する。 バックボーンの異なるいくつかの検出器に対する実験は、我々のアプローチの有効性を実証し、最先端の検出器対検出器蒸留法より優れていることを示した。

Knowledge distillation constitutes a simple yet effective way to improve the performance of a compact student network by exploiting the knowledge of a more powerful teacher. Nevertheless, the knowledge distillation literature remains limited to the scenario where the student and the teacher tackle the same task. Here, we investigate the problem of transferring knowledge not only across architectures but also across tasks. To this end, we study the case of object detection and, instead of following the standard detector-to-detector distillation approach, introduce a classifier-to-detect or knowledge transfer framework. In particular, we propose strategies to exploit the classification teacher to improve both the detector's recognition accuracy and localization performance. Our experiments on several detectors with different backbones demonstrate the effectiveness of our approach, allowing us to outperform the state-of-the-art detector-to-detector distillation methods.
公開日: Wed, 9 Jun 2021 16:50:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Distilling Image Classifiers in Object Detectors 物体検出器における蒸留像分類器 0.61
Shuxuan Guo1, 2, Jose M. Alvarez2, Mathieu Salzmann1 Shuxuan Guo1, 2, Jose M. Alvarez2, Mathieu Salzmann1 0.88
shuxuan.guo@epfl.ch, josea@nvidia.com, mathieu.salzmann@epf l.ch shuxuan.guo@epfl.ch, josea@nvidia.com, mathieu.salzmann@epf l.ch 0.64
1CVLab, EPFL, Lausanne 1015, Switzerland 1CVLab,EPFL,ラウザンヌ1015,スイス 0.82
2NVIDIA, Santa Clara, CA 95051, USA 2NVIDIA, Santa Clara, CA 95051, USA 0.94
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] V C . 9 ] 略称はC。 0.73
s c [ 1 v 9 0 2 5 0 sc [ 1 v 9 0 2 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Knowledge distillation constitutes a simple yet effective way to improve the performance of a compact student network by exploiting the knowledge of a more powerful teacher. 概要 知識蒸留は、より強力な教師の知識を活用することで、コンパクトな学生ネットワークの性能を向上させるためのシンプルで効果的な方法である。
訳抜け防止モード: 概要 知識蒸留は単純で効果的な方法である より強力な教師の知識を活用し、コンパクトな学生ネットワークのパフォーマンスを向上させる。
0.64
Nevertheless, the knowledge distillation literature remains limited to the scenario where the student and the teacher tackle the same task. それにもかかわらず、知識蒸留文学は、生徒と教師が同じ課題に取り組むシナリオに限定されている。 0.75
Here, we investigate the problem of transferring knowledge not only across architectures but also across tasks. 本稿では,アーキテクチャだけでなくタスク間での知識伝達の問題について検討する。 0.70
To this end, we study the case of object detection and, instead of following the standard detector-to-detector distillation approach, introduce a classifier-to-detector knowledge transfer framework. そこで本研究では,物体検出の事例について検討し,標準検出器-検出器蒸留法に従わず,分類器-検出器間知識伝達フレームワークを導入する。 0.72
In particular, we propose strategies to exploit the classification teacher to improve both the detector’s recognition accuracy and localization performance. 特に,検知器の認識精度とローカライゼーション性能の両方を改善するために,分類教師を利用する手法を提案する。 0.83
Our experiments on several detectors with different backbones demonstrate the effectiveness of our approach, allowing us to outperform the state-of-the-art detector-to-detector distillation methods. バックボーンの異なるいくつかの検出器に対する実験は、我々のアプローチの有効性を実証し、最先端の検出器対検出器蒸留法より優れていることを示した。 0.54
Introduction 1 Object detection plays a critical role in many real-world applications, such as autonomous driving and video surveillance. はじめに 1 オブジェクト検出は、自動運転やビデオ監視など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
訳抜け防止モード: はじめに 1 オブジェクト検出は多くの実世界のアプリケーションで重要な役割を果たす。 自動運転やビデオ監視などです
0.69
While deep learning has achieved tremendous success in this task [26, 27, 32, 33, 39], the speed-accuracy trade-off of the resulting models remains a challenge. ディープラーニングはこのタスク [26, 27, 32, 33, 39] で大きな成功を収めていますが、結果として得られるモデルの速度精度のトレードオフは依然として課題です。 0.67
This is particularly important for real-time prediction on embedded platforms, whose limited memory and computation power impose strict constraints on the deep network architecture. これは組み込みプラットフォーム上でのリアルタイム予測において特に重要であり、メモリと計算能力の制限によりディープネットワークアーキテクチャに厳しい制約が課される。 0.72
To address this, much progress has recently been made to obtain compact deep networks. これに対処するために、近頃、コンパクトなディープネットワークを得るための多くの進歩がなされている。 0.51
Existing methods include pruning [1, 2, 13, 37, 23] and quantization [7, 43, 31], both of which aim to reduce the size of an initial deep architecture, as well as knowledge distillation, whose goal is to exploit a deep teacher network to improve the training of a given compact student one. 既存の方法としては、初期深層建築の規模を小さくすることを目的としたプルーニング[1, 2, 2, 13, 37, 23]と量子化[7, 43, 31]と、与えられたコンパクトな学生のトレーニングを改善するために深層教師ネットワークを活用することを目的とした知識蒸留がある。 0.81
In this paper, we introduce a knowledge distillation approach for object detection. 本稿では,物体検出のための知識蒸留手法を提案する。 0.78
While early knowledge distillation techniques [18, 34, 35] focused on the task of image classification, several attempts have nonetheless been made for object detection. 早期の知識蒸留技術 [18, 34, 35] は画像分類の課題に重点を置いているが, 対象物検出にはいくつかの試みがなされている。 0.76
To this end, existing techniques [5, 12, 38] typically leverage the fact that object detection frameworks consist of three main stages depicted by Figure 1(a): A backbone to extract features; a neck to fuse the extracted features; and heads to predict classes and bounding boxes. この目的のために、既存の技術 [5, 12, 38] は、典型的には、オブジェクト検出フレームワークが、図1(a)で表される3つの主要なステージで構成されているという事実を利用する: 特徴を抽出するバックボーン、抽出された特徴を融合するネック、クラスとバウンディングボックスを予測するヘッド。
訳抜け防止モード: この目的のために、既存のテクニック[5, 12, 38 ]は、通常、その事実を活用する。 オブジェクト検出フレームワークは図1(a)で表される3つの主要なステージで構成される :特徴を抽出する背骨,特徴を融合する首 そして、クラスとバウンディングボックスを予測する。
0.76
Knowledge distillation is then achieved using a teacher with the same architecture as the student but a deeper and wider backbone, such as a Faster RCNN [33] with ResNet152 [14] teacher for a Faster RCNN with ResNet50 student, thus facilitating knowledge transfer at all three stages of the frameworks. その後、ResNet152[14]の教師とResNet50の学生との高速RCNNのための高速RCNN[33]のような、学生と同じアーキテクチャを持つ教師を用いて知識蒸留を行い、フレームワークの3段階すべてにおいて知識伝達を容易にする。 0.71
To the best of our knowledge, [42] constitutes the only exception to this strategy, demonstrating distillation across different detection frameworks, such as from a RetinaNet [26] teacher to a RepPoints [39] student. 我々の知る限り, [42] はこの戦略の唯一の例外であり, RetinaNet [26] 教師から RepPoints [39] 学生まで, さまざまな検出フレームワーク間の蒸留を実証している。 0.76
This method, however, requires the teacher and the student to rely on a similar detection strategy, i.e., both must be either one-stage detectors or two-stage ones, and, more importantly, still follows a detector-to-detector approach to distillation. しかし、この方法は教師と生徒に同様の検出戦略、すなわち、どちらも1段階検出器か2段階検出器でなければならず、さらに重要なこととして、蒸留に対する検出器から検出器へのアプローチに従わなければならない。 0.73
In other words, the study of knowledge distillation remains limited to transfer across architectures tackling the same task. 言い換えれば、知識蒸留の研究は、同じ課題に取り組むアーキテクチャ間の移動に限られている。 0.75
英語(論文から抽出)日本語訳スコア
In this paper, we investigate the problem of transferring knowledge not only across architectures but also across tasks. 本稿では,アーキテクチャだけでなく,タスク間で知識を伝達する問題について検討する。 0.77
In particular, we observed that the classification head of state-of-the-art object detectors still typically yields inferior performance compared to what can be expected from an image classifier. 特に,最先端の物体検出器の分類ヘッドは,画像分類器から期待できるよりも性能が劣っていることが観察された。 0.78
Thus, as depicted by Figure 1(b), we focus on the scenario where the teacher is an image classifier while the student is an object detector. このように、図1(b)に示すように、教師がイメージ分類器であり、学生がオブジェクト検出器であるシナリオに焦点を当てる。 0.78
We then develop distillation strategies to improve both the recognition accuracy and the localization ability of the student. そして, 留学生の認識精度と局所化能力を向上させるために蒸留戦略を開発した。 0.65
Our contributions can thus be summarized as follows: 私たちの貢献は次のように要約できる。 0.66
• We introduce the idea of classifier-to-detector knowledge distillation to improve the perfor- • 分別器から検出器への知識蒸留の考え方を導入し, 穿孔の改善を図る。 0.48
mance of a student detector using a classification teacher. 分類教師を使った 生徒検出器のマンス。 0.72
• We propose a distillation method to improve the student’s classification accuracy, applicable when the student uses either a categorical cross-entropy loss or a binary cross-entropy one. • 学生がカテゴリ間クロスエントロピー損失または二項クロスエントロピー損失のいずれかを使用する場合に適用可能な,学生の分類精度を向上させる蒸留法を提案する。 0.73
• We develop a distillation strategy to improve the localization performance of the student be • 留学生のローカライズ性能を向上させるための蒸留戦略を開発する 0.74
exploiting the feature maps from the classification teacher. 分類教師からの特徴マップを活用。 0.68
We demonstrate the effectiveness of our approach on the COCO2017 benchmark [24] using diverse detectors, including the relatively large two-stage Faster RCNN and single-stage RetinaNet used in previous knowledge distillation works, as well as more compact detectors, such as SSD300, SSD512 [27] and Faster RCNNs[33] with lightweight backbones. 我々は,COCO2017ベンチマーク [24] において,従来の知識蒸留作業で使用されていた比較的大きな2段式高速RCNNやシングルステージ型RetinaNet,軽量背骨付きSSD300,SSD512[27],Faster RCNN[33] などの小型検出器などを用いたアプローチの有効性を示した。 0.79
Our classifier-to-detector distillation approach outperforms the detector-to-detector distillation ones in the presence of compact students, and helps to further boost the performance of detector-to-detector distillation techniques for larger ones, such as Faster RCNN and RetinaNet with a ResNet50 backbone. 本手法は, 小型留学生の存在下では, 検出器-検出器間蒸留よりも優れており, 高速rcnn, retinanetなどの大型留学生向け検出器-検出器間蒸留技術の性能向上に寄与する。 0.73
We will make our code publicly available. 私たちはコードを公開します。 0.73
2 Related work Object detection is one of the fundamental tasks in computer vision, aiming to localize the objects observed in an image and classify them. 2関連作品 物体検出はコンピュータビジョンの基本課題の1つであり、画像で観察された物体を局所化し、分類することを目的としている。
訳抜け防止モード: 2関連作品 物体検出はコンピュータビジョンの基本課題の1つである。 画像中の物体をローカライズし 分類することを目的としています
0.76
Recently, much progress has been made via the development of both one-stage [32, 27, 9, 22, 36] and two-stage [33, 4, 15, 25] deep object detection frameworks, significantly improving the mean average precision (mAP) on standard benchmarks [24, 10, 11]. 近年,標準ベンチマーク [24,10,11] の平均平均精度 (map) を大幅に改善する,1段階 [32,27,9,22,36] と2段階 [33,4,15,25] の2段階 [33,15,25] のディープオブジェクト検出フレームワークの開発によって,多くの進歩が見られる。 0.80
However, the performance of these models typically increases with their size, and so does their inference runtime. しかし、これらのモデルの性能は一般的にサイズによって増加し、推論ランタイムも同様になる。 0.69
This conflicts with their deployment on embedded platforms, such as mobile phones, drones, and autonomous vehicles, which involve computation and memory constraints. これは、計算とメモリの制約を伴う携帯電話、ドローン、自動運転車などの組み込みプラットフォームへの展開と矛盾する。 0.61
While some efforts have been made to design smaller detectors, such as SSD [27], YOLO [32] and detectors with lightweight backbones [19], the performance of these methods does not match that of deeper ones. ssd [27], yolo [32], detectors with lightweight backbones [19]など,より小さな検出器の設計にはいくつかの取り組みがなされているが,これらの手法の性能は,より深いものとは一致しない。 0.87
Knowledge distillation offers the promise to boost the performance of such compact networks by exploiting deeper teacher architectures. 知識蒸留は、より深い教師アーキテクチャを活用することで、そのようなコンパクトネットワークの性能を高めることを約束する。
訳抜け防止モード: 知識蒸留は約束を果たす 教師アーキテクチャの深化を生かして、このようなコンパクトネットワークの性能を高める。
0.70
Early work in this space focused on the task of image classification. この分野での初期の研究は、画像分類のタスクに焦点が当てられた。 0.58
In particular, Hinton et al [18] proposed to distill the teacher’s class probability distribution into the student, and Romero et al [34] encouraged the student’s intermediate feature maps to mimic the teacher’s ones. 特に、Hinton et al [18] は教師のクラス確率分布を学生に還元することを提案し、Romro et al [34] は教師のクラス確率分布を模倣するように学生の中間特徴写像を奨励した。 0.73
These initial works were followed by a rapid growth in the number of knowledge distillation strategies, including methods based on attention maps [41], on transferring feature flows defined by the inner product of features [40], and on contrastive learning to structure the knowledge distilled from teacher to the student [35]. これらの最初の研究は、アテンションマップ[41]に基づく方法、特徴[40]の内積によって定義される特徴フローの伝達、教師から生徒に蒸留された知識を構造化するためのコントラスト学習など、知識蒸留戦略の数を急速に増加させた [35]。 0.81
Heo et al [17] provides a comprehensive study of feature distillation. Heo et al [17]は特徴蒸留に関する包括的な研究を提供する。 0.75
Compared to image classification, object detection poses the challenge of involving both recognition and localization. 画像分類と比較すると、物体検出は認識と局所化の両面での課題である。 0.67
As such, several works have introduced knowledge distillation methods specifically tailored to this task. そのため、この課題に特化して知識蒸留法がいくつか導入されている。 0.52
This trend was initiated by Chen et al [5], which proposed to distill knowledge from a teacher detector to a student detector in both the backbone and head stages. この傾向は Chen et al [5] によって始められ、教師検出器からバックボーンとヘッドステージの両方の学生検出器に知識を蒸留することを提案した。 0.78
Then, Wang et al [38] proposed to restrict the teacher-student feature imitation to regions around positive anchor boxes; Dai et al [8] produced general instances based on both the teacher’s and student’s outputs, and distilled feature-based, relation-based and response-based knowledge in these general instances; Guo et al [12] proposed to decouple the intermediate features and classification predictions of the positive and negative regions during knowledge distillation. 次に, Wang et al [38] は, 正のアンカーボックス周辺の地域に対して, 教師と学生の両方のアウトプットに基づいて, 一般事例を作成し, それらの一般事例における特徴ベース, 関係ベースおよび応答ベース知識を蒸留し, Guo et al [12] は, 知識蒸留中の正の領域と負の領域の中間的特徴と分類予測を分離することを提案した。 0.82
All the aforementioned knowledge distillation methods require the student and the teacher to follow the same kind of detection framework, and thus typically transfer knowledge between models that only differ in terms of backbone, such as from a RetinaNet-ResNet152 to a RetinaNet-ResNet50. 前述の知識蒸留法はすべて、生徒と教師が同じ種類の検出フレームワークに従う必要があり、一般的には、RetinaNet-ResNet152からRetinaNet-ResNet50まで、バックボーンの点でのみ異なるモデル間で知識を伝達する。 0.81
In [42], such a constraint was relaxed via a method 42]では、そのような制約は方法によって緩和された 0.74
2 2 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Overview of our classifier-to-detector distillation framework. 図1: 分類器から検出器への蒸留フレームワークの概要。 0.67
(a) Existing methods perform distillation across corresponding stages in the teacher and student, which restricts their applicability to detector-to-detector distillation. (a)既存の方法では、教師及び学生の対応する段階にまたがって蒸留を行い、検出器間蒸留の適用性を制限している。 0.54
(b) By contrast, we introduce strategies to transfer the knowledge from an image classification teacher to an object detection student, improving both its recognition and localization accuracy. b)対照的に,画像分類教師から物体検出学生へ知識を伝達する戦略を導入し,認識精度と局所化精度の両方を改善した。 0.85
able to transfer knowledge across the feature maps of different frameworks. さまざまなフレームワークの機能マップに知識を転送することができる。 0.77
This allowed the authors to leverage the best one-stage, resp. これにより、著者は最高のワンステージのrespを利用できる。 0.46
two-stage, teacher model to perform distillation to any one-stage, resp. 2段階の教師モデルで、任意の1段階のrespに蒸留を行う。 0.60
two-stage, student. This method, however, still assumes that the teacher is a detector. 2段階の生徒。 しかし、この方法は教師が検出器であると仮定している。 0.77
In short, existing knowledge distillation methods for object detection all follow a detector-to-detector transfer strategy. 要するに、物体検出のための既存の知識蒸留法は、すべて検出器間移動戦略に従っている。 0.56
In fact, to the best of our knowledge, distillation has only been studied across two architectures that tackle the same task, may it be image classification, object detection, or even semantic segmentation [16, 28]. 実際、我々の知る限りでは、蒸留は、同じタスクに取り組む2つのアーキテクチャでのみ研究され、画像分類、オブジェクト検出、さらにはセマンティックセグメンテーション [16, 28] までも研究されている。 0.72
In this paper, by contrast, we investigate the use of knowledge distillation across tasks and develop strategies to distill the knowledge of an image classification teacher to an object detection student. 一方,本研究では,課題間の知識蒸留の活用について検討し,画像分類教師の知識をオブジェクト検出学生に抽出するための戦略を開発する。 0.83
3 Our Approach Our goal is to investigate the transfer of knowledge from an image classifier to an object detector. 3 アプローチ 我々の目標は、画像分類器から物体検出器への知識の伝達を調べることである。 0.64
As illustrated in Figure 1, this contrasts with existing knowledge distillation techniques for object detection, which typically assume that the teacher and the student both follow a similar three-stage detection pipeline. 図1に示すように、これはオブジェクト検出のための既存の知識蒸留技術とは対照的であり、教師と生徒はどちらも同様の3段階検出パイプラインに従っていると仮定することが多い。 0.72
For our classifier-to-detector knowledge distillation to be effective, we nonetheless need the student and teacher to process the same data and use the same loss for classification. 分類者間知識蒸留が有効であるためには、学生と教師が同じデータを処理し、同じ損失を分類に使用する必要がある。 0.74
To this end, given a detection dataset Ddet depicting C foreground object categories, we construct a classification dataset Dcls by extracting all objects from Ddet according to their ground-truth bounding boxes and labels. この目的のために,前景オブジェクトカテゴリを記述した検出データセットDdetを前提として,Ddetからすべてのオブジェクトを接地構造境界ボックスとラベルに従って抽出し,分類データセットDclsを構築する。 0.78
We then train our classification teacher Ft, with parameters θt, on Dcls in a standard classification manner. 次に,標準分類法でパラメータθtを用いた分類教師ftをdcl上で訓練する。 0.79
In the remainder of this section, we introduce our strategies to exploit the resulting teacher to improve both the classification and localization accuracy of the student detector Fs, with parameters θs. 本節の残りでは,得られた教師を活用し,パラメータθsを用いて学生検出器fsの分類精度と局所化精度を向上させる戦略を提案する。 0.85
3.1 KDcls: Knowledge Distillation for Classification 3.1 KDcls: 分類のための知識蒸留 0.73
Our first approach to classifier-to-detector distillation focuses on the classification accuracy of the student network. 本研究の最初のアプローチは,学生ネットワークの分類精度に焦点をあてるものである。 0.65
To this end, we make use of the class-wise probability distributions obtained by the teacher and the student, softened by making use of a temperature parameter T . この目的のために,教師と学生によって得られたクラスワイド確率分布を,温度パラメータTを用いて軟化する。 0.73
Below, we first derive our general formulation for distillation for classification, and then discuss in more detail how we obtain the teacher and student class distributions for the two types of classification losses commonly used by object detection frameworks. 以下は、まず、分類のための蒸留法に関する一般的な定式化を導出し、続いて、対象検出フレームワークで一般的に使用される2種類の分類損失に対して、教師と学生のクラス分布をどのように取得するかをより詳細に議論する。 0.62
3 (a) Detector-to-Detector Distillation TeacherBackbone TeacherNeckClsBoxDis tillationDistillatio nDistillationTeacher HeadStudentBackbone StudentNeckClsBoxStu dent Head(b) Our Classifier-to-Detector Distillation StudentBackbone StudentNeckClsBoxStu dent HeadDistillationTeac her BackboneGround-truth ObjectOgt<latexit sha1_base64="9LMt88mY1k32tBLXGxev X0eYHSY=">AAACYXicbVFNb9NAEN2Y QltTIC3HXqymSL0Q21El 2lulcoBLCSppIyXBGq8n ySr7Ye1HSWTlT3CFP8a5 f4R1kkNpGWmlpzdvNG/e 5iVnxibJn0bwbOv5i+2d3fDl3qvXb5r7BzdGOU 2xRxVXup+DQc4k9iyzHPulRhA5x9t 8dln3b+9QG6bkN7socSRgItmYUb Ce6h9/+V5N7PI4a7aSdrKq6ClIN 6BFNtXN9huXw0JRJ1Bay sGYQZqUdlSBtoxyXIZDZ 7AEOoMJDjyUINCMqpXhZ fTOM0U0Vto/aaMV+3CiAmHMQuReKcBOzeNeT f6vN3B2fDaqmCydRUnXi 8aOR1ZF9fVRwTRSyxceA NXMe43oFDRQizoMh6vBK u4Zn1g8cSr+qFWZq3ncSTpJ9kPpWXyF Tn/uXtdETP1RGt77vItF fD11cwcyeyDI1oJsLajd ZlQJAbIwbYvzZehjTx+H/BTcdNrpafv8a6d1cbr 5gB1ySI7ICUnJB3JBPpE u6RFKOPlJfpHfjftgN2g GB2tp0NjMvCX/VHD4FwD ItZ0=</latexit>Teacher BackboneClassifierTeacher Teacher FeatureStudentFeatur eClassifierTeacher ClassificationDistillationLo calizationDistillati onDetectorTeacher Cls HeadPredicted ObjectOp<latexit sha1_base64="EgyhE5JAcI2AkC7BSxCY y9XDVKc=">AAACYHicbVHLbhNBEBwv gZjlkRhu5LLCQeKCd9eK lHCLFA5wIY4Sx5Fss+qdbdsjz2M1D7C18kdwhS /jypcwa/uQBy2NVKquVl fX5CVnxibJn0bwaOfxk9 3m0/DZ8xcv9/Zbr66Ncp pinyqu9E0OBjmT2LfMcr wpNYLIOQ7y+VndH3xHbZiSV3ZZ4ljAV LIJo2A9NTg8/1aVq8Nsv 510knVFD0G6BW2yrV7Wa pyNCkWdQGkpB2OGaVLac QXaMspxFY6cwRLoHKY49 FCCQDOu1n5X0TvPFNFEa f+kjdbs7YkKhDFLkXulADs z93s1+b/e0NnJybhisnQWJd0sm jgeWRXVx0cF00gtX3oAV DPvNaIz0EAt6jAcrQeru G98YPHUqfiTVmWuFnE36 SbZD6Xn8Vd0+kvvsiZi6o/S8MHHXSzjy 5lbOJDZLUG2EWQbQe02o 0oIkIXpWFysQh97ej/kh +C620mPOh8vuu3To+0HNMkBeUvek5Qck1Pymf RIn1AyJz/JL/K78TdoBn tBayMNGtuZ1+ROBW/+AQb8tSg=</latexit>Ogt<latexit sha1_base64="9LMt88mY1k32tBLXGxev X0eYHSY=">AAACYXicbVFNb9NAEN2Y QltTIC3HXqymSL0Q21El 2lulcoBLCSppIyXBGq8n ySr7Ye1HSWTlT3CFP8a5 f4R1kkNpGWmlpzdvNG/e 5iVnxibJn0bwbOv5i+2d3fDl3qvXb5r7BzdGOU 2xRxVXup+DQc4k9iyzHPulRhA5x9t 8dln3b+9QG6bkN7socSRgItmYUb Ce6h9/+V5N7PI4a7aSdrKq6ClIN 6BFNtXN9huXw0JRJ1Bay sGYQZqUdlSBtoxyXIZDZ 7AEOoMJDjyUINCMqpXhZ fTOM0U0Vto/aaMV+3CiAmHMQuReKcBOzeNeT f6vN3B2fDaqmCydRUnXi 8aOR1ZF9fVRwTRSyxceA NXMe43oFDRQizoMh6vBK u4Zn1g8cSr+qFWZq3ncSTpJ9kPpWXyF Tn/uXtdETP1RGt77vItF fD11cwcyeyDI1oJsLajd ZlQJAbIwbYvzZehjTx+H/BTcdNrpafv8a6d1cbr 5gB1ySI7ICUnJB3JBPpE u6RFKOPlJfpHfjftgN2g GB2tp0NjMvCX/VHD4FwD ItZ0=</latexit>Box Prediction 3 (a) Detector-to-Detector Distillation TeacherBackbone TeacherNeckClsBoxDis tillationDistillatio nDistillationTeacher HeadStudentBackbone StudentNeckClsBoxStu dent Head(b) Our Classifier-to-Detector Distillation StudentBackbone StudentNeckClsBoxStu dent HeadDistillationTeac her BackboneGround-truth ObjectOgt<latexit sha1_base64="9LMt88mY1k32tBLXGxev X0eYHSY=">AAACYXicbVFNb9NAEN2Y QltTIC3HXqymSL0Q21El 2lulcoBLCSppIyXBGq8n ySr7Ye1HSWTlT3CFP8a5 f4R1kkNpGWmlpzdvNG/e 5iVnxibJn0bwbOv5i+2d3fDl3qvXb5r7BzdGOU 2xRxVXup+DQc4k9iyzHPulRhA5x9t 8dln3b+9QG6bkN7socSRgItmYUb Ce6h9/+V5N7PI4a7aSdrKq6ClIN 6BFNtXN9huXw0JRJ1Bay sGYQZqUdlSBtoxyXIZDZ 7AEOoMJDjyUINCMqpXhZ fTOM0U0Vto/aaMV+3CiAmHMQuReKcBOzeNeT f6vN3B2fDaqmCydRUnXi 8aOR1ZF9fVRwTRSyxceA NXMe43oFDRQizoMh6vBK u4Zn1g8cSr+qFWZq3ncSTpJ9kPpWXyF Tn/uXtdETP1RGt77vItF fD11cwcyeyDI1oJsLajd ZlQJAbIwbYvzZehjTx+H/BTcdNrpafv8a6d1cbr 5gB1ySI7ICUnJB3JBPpE u6RFKOPlJfpHfjftgN2g GB2tp0NjMvCX/VHD4FwD ItZ0=</latexit>Teacher BackboneClassifierTeacher Teacher FeatureStudentFeatur eClassifierTeacher ClassificationDistillationLo calizationDistillati onDetectorTeacher Cls HeadPredicted ObjectOp<latexit sha1_base64="EgyhE5JAcI2AkC7BSxCY y9XDVKc=">AAACYHicbVHLbhNBEBwv gZjlkRhu5LLCQeKCd9eK lHCLFA5wIY4Sx5Fss+qdbdsjz2M1D7C18kdwhS /jypcwa/uQBy2NVKquVl fX5CVnxibJn0bwaOfxk9 3m0/DZ8xcv9/Zbr66Ncp pinyqu9E0OBjmT2LfMcr wpNYLIOQ7y+VndH3xHbZiSV3ZZ4ljAV LIJo2A9NTg8/1aVq8Nsv 510knVFD0G6BW2yrV7Wa pyNCkWdQGkpB2OGaVLac QXaMspxFY6cwRLoHKY49 FCCQDOu1n5X0TvPFNFEa f+kjdbs7YkKhDFLkXulADs z93s1+b/e0NnJybhisnQWJd0sm jgeWRXVx0cF00gtX3oAV DPvNaIz0EAt6jAcrQeru G98YPHUqfiTVmWuFnE36 SbZD6Xn8Vd0+kvvsiZi6o/S8MHHXSzjy 5lbOJDZLUG2EWQbQe02o 0oIkIXpWFysQh97ej/kh +C620mPOh8vuu3To+0HNMkBeUvek5Qck1Pymf RIn1AyJz/JL/K78TdoBn tBayMNGtuZ1+ROBW/+AQb8tSg=</latexit>Ogt<latexit sha1_base64="9LMt88mY1k32tBLXGxev X0eYHSY=">AAACYXicbVFNb9NAEN2Y QltTIC3HXqymSL0Q21El 2lulcoBLCSppIyXBGq8n ySr7Ye1HSWTlT3CFP8a5 f4R1kkNpGWmlpzdvNG/e 5iVnxibJn0bwbOv5i+2d3fDl3qvXb5r7BzdGOU 2xRxVXup+DQc4k9iyzHPulRhA5x9t 8dln3b+9QG6bkN7socSRgItmYUb Ce6h9/+V5N7PI4a7aSdrKq6ClIN 6BFNtXN9huXw0JRJ1Bay sGYQZqUdlSBtoxyXIZDZ 7AEOoMJDjyUINCMqpXhZ fTOM0U0Vto/aaMV+3CiAmHMQuReKcBOzeNeT f6vN3B2fDaqmCydRUnXi 8aOR1ZF9fVRwTRSyxceA NXMe43oFDRQizoMh6vBK u4Zn1g8cSr+qFWZq3ncSTpJ9kPpWXyF Tn/uXtdETP1RGt77vItF fD11cwcyeyDI1oJsLajd ZlQJAbIwbYvzZehjTx+H/BTcdNrpafv8a6d1cbr 5gB1ySI7ICUnJB3JBPpE u6RFKOPlJfpHfjftgN2g GB2tp0NjMvCX/VHD4FwD ItZ0=</latexit>Box Prediction 0.48
英語(論文から抽出)日本語訳スコア
Formally, given K positive anchor boxes or object proposals, which are assigned with one of the ground-truth labels and bounding boxes during training, let ps,T denote the vector of softened class probabilities for box k from the student network, obtained at temperature T , and let pt,T denote k the corresponding softened probability vector from the teacher network. 正式には、トレーニング中に接地木ラベルと有界箱の1つに割り当てられるK正のアンカーボックスまたはオブジェクトの提案を与えられた場合、ps,Tは、学生ネットワークからkのソフト化クラス確率のベクトルを、温度Tで取得した学生ネットワークから表現し、pt,Tは、教師ネットワークから対応するソフト化確率ベクトルをkとする。 0.74
We express knowledge distillation for classification as a loss function measuring the Kullback-Leibler (KL) divergence between the teacher and student softened distributions. 我々は,教師と学生の軟化分布間のKL差を測定する損失関数として,知識蒸留を表現する。 0.72
This can be written as これは次のように書けます 0.56
k Lkd−cls = k lkd−cls = 0.76
1 K KL(pt,T k 1K KL(pt,T k) 0.83
(cid:107) ps,T (cid:107)ps,T 0.89
k ) . (1) K(cid:88) K)。 (1) k(cid:88) 0.75
k=1 The specific way we define the probability vectors ps,T then depends on the loss function that the student detector uses for classification. k=1 確率ベクトル ps,T を定義する具体的な方法は、学生検出器が分類に使用する損失関数に依存する。 0.71
Indeed, existing detectors follow two main trends: some, such as Faster RCNN and SSD, exploit the categorical cross-entropy loss with a softmax, accouting for the C foreground classes and 1 background one; others, such as RetinaNet, employ a form of binary cross-entropy loss with a sigmoid1, focusing only on the C foreground classes. 実際、既存の検出器は2つの主要なトレンドに従っている: より高速なrcnnやssdのような一部のものは、ソフトマックスによるカテゴリー的なクロスエントロピー損失、cフォアグラウンドクラスへのアタッチ、背景の1つの損失、そしてretinanetのような他のものは、cフォアグラウンドクラスのみに焦点を当てた2つのクロスエントロピー損失の形態を採用している。
訳抜け防止モード: 実際、既存の検出器は2つの主要なトレンドに従っている。例えば、より高速なRCNNとSSDは、ソフトマックスによるカテゴリー横断-エントロピー損失を利用する。 C のフォアグラウンドクラスを割り当てる RetinaNetなどでは,Sigmoid1による二進的クロス-エントロピー損失という形式を採用しています。 Cのフォアグラウンドクラスのみに焦点を当てる。
0.62
Let us now discuss these two cases in more detail. この2つのケースについて詳しく説明しましょう。 0.56
Categorical cross-entropy. カテゴリー横断エントロピー。 0.46
In this case, for each positive object bounding box k, the student detector k ∈ (C + 1). この場合、各正の対象有界箱 k に対して、学生検出器 k ∈ (C + 1) が成り立つ。 0.81
We then compute the corresponding softened probability for class c outputs logits zs with temperature T as 次に、温度Tのクラスc出力ロジッツzsの対応する軟化確率を計算する。 0.74
and pt,T k k そしてpt,t k k 0.72
where zs it produces logits zt zsはlogits ztを生成します 0.65
k,c denote the logit corresponding to class c. By contrast, as our teacher is a C-way classifier, 対照的に、私たちの先生はCウェイの分類子です。
訳抜け防止モード: k, c はクラス c に対応するロジットを表す。 私たちの先生はc-way分類子です。
0.81
k ∈ C. We thus compute its softened probability for class c as したがって、クラス c に対するその軟化確率を計算します。 0.73
, (3) k (c|θs) = ps,T , (3) k (c|θs) = ps,T 0.86
(cid:80)C+1 (cid:80)c+1 0.65
ezs k,c/T j=1 ezs ezs k,c/T j=1 ezs 0.75
k,j /T , k (c|θt) = ˜pt,T k,j/t , k (c|θt) = spt,T 0.85
(cid:80)C ezt k,c/T j=1 ezt (cid:80)c ezt k,c/T j=1 ezt 0.79
k,j /T (2) (5) k,j/T (2) (5) 0.86
and, assuming that all true objects should be classified as background with 0 probability, augment the resulting distribution to account for the background class as pt,T = [˜pt,T , 0]. そして、すべての真のオブジェクトが0の確率で背景として分類されるべきであると仮定すると、結果の分布をpt,T = [ spt,T , 0] として表すように拡張する。 0.72
The KL-divergence between the teacher and student softened distributions for object k can then be written as 対象 k に対する教師と学生の軟化分布の KL 分割は、次のように書くことができる。 0.67
KL(pt,T k KL(pt,T k) 0.93
(cid:107) ps,T (cid:107)ps,T 0.89
k ) = T 2 pt,T k,c log pt,T k ) = t 2 pt,T k,c log pt,T 0.84
k,c − pt,T k,c − pt,T 0.85
k,c log ps,T k,c . k,c log ps,T k,c である。 0.90
(4) Binary cross-entropy. (4) 二元クロスエントロピー。 0.74
The detectors that rely on the binary cross-entropy output a score between 0 and 1 for each of the C foreground classes, but, together, these scores do not form a valid distribution over the C classes as they do not sum to 1. 2進クロスエントロピーに依存する検出器は、各C前景類に対して0から1までのスコアを出力するが、これらのスコアは、合計が 1 でないため、C クラス上の有効な分布を形成しない。 0.78
To nonetheless use them in a KL-divergence measure between the teacher and student, we rely on the following strategy. それにもかかわらず、教師と生徒のKL分割尺度で使用するためには、以下の戦略に依存する。 0.69
Given the student and teacher C-dimensional logit vectors for an object k, we compute softened probabilities as 対象 k に対する学生および教師の c-次元ロジットベクトルを考えると、軟化確率を計算できる。 0.72
c=1 C+1(cid:88) c=1。 C+1 (cid:88) 0.55
k (c|θs) = (1 + e ˜ps,T k (c|θt) = (1 + e ˜pt,T (cid:40) k (c|θs) = (1 + e sps,t k (c|θt) = (1 + e spt,t (cid:40) 0.85
−zs k,c/T )−1 , −zt k,c/T )−1 . −zs k,c/T )−1 , −zt k,c/T )−1。 0.66
We then build a 2-class probability distribution for each category according to the ground-truth label l of object k. Specifically, for each category c, we write [1 − ˜ps,T k,c , ˜ps,T if c = l k,c ], k,c , 1 − ˜ps,T [˜ps,T k,c ], otherwise 1(cid:88) 次に、対象 k の基底構造ラベル l に従って、各カテゴリに対して 2-階確率分布を構築する。具体的に、各カテゴリ c に対して、c = l k,c ], k,c , 1 − shps,T [ sps,T k,c ] と書き、そうでなければ 1(cid:88) と書く。 0.74
for the student, and similarly for the teacher. 生徒にとっても、先生にとっても。 0.74
This lets us express the KL-divergence for object k as これにより、オブジェクト k の kl-divergence を表現できる。 0.53
C(cid:88) ps,T k,c = c(cid:88) ps,T k,c = 0.83
(6) pt,T k,c (i) log pt,T (6) pt,T k,c (i) log pt,T 0.85
k,c (i) − pt,T k,c(i) − pt,T 0.85
k,c (i) log ps,T k,c (i) log ps,T 0.85
k,c (i) , (7) k,c (i) , (7) 0.85
KL(pt,T k KL(pt,T k) 0.93
(cid:107) ps,T (cid:107)ps,T 0.89
k ) = T 2 C c=1 k) = T2C c=1。 0.68
i=0 where pt,T k,c (i) indicates the i-th element of the 2-class distribution pt,T k,c . i=0 pt、t、 k,c (i) は二級分布 pt,t k,c の i 番目の要素を示す。 0.65
1In essence, the RetinaNet focal loss follows a binary cross-entropy formulation. 1 本質的に、RetinaNetの焦点損失は二元交叉エントロピーの定式化に続く。 0.60
4 4 0.85
英語(論文から抽出)日本語訳スコア
3.2 KDloc: Knowledge Distillation for Localization 3.2 KDloc: ローカライゼーションのための知識蒸留 0.68
While, as will be shown by our experiments, knowledge distillation for classification already helps the student detector, it does not aim to improve its localization performance. 実験で示されるように, 分類の知識蒸留はすでに学生検出に役立っているが, 局所化性能の向上を意図していない。 0.77
Nevertheless, localization, or bounding box regression, is critical for the success of a detector and is typically addressed by existing detector-to-detector distillation frameworks [5, 8]. それでも、局所化や境界ボックス回帰は検出器の成功に不可欠であり、既存の検出器間蒸留フレームワーク [5, 8] によって対処されるのが一般的である。 0.61
To also tackle this in our classifier-to-detector approach, we develop a feature-level distillation strategy, exploiting the intuition that the intermediate features extracted by the classification teacher from a bounding box produced by the student should match those of the ground-truth bounding box. また,本手法では,学生が生成した境界箱から分類教師が抽出した中間的特徴が接地トラス境界箱のものと一致すべきという直感を利用して,特徴レベルの蒸留戦略を開発する。 0.80
Formally, given an input image I of size w× h, let us denote by Bk = (x1, y1, x2, y2) the bottom-left and top-right corners of the k-th bounding box produced by the student network. 形式的には、サイズ w× h の入力画像 I が与えられたとき、Bk = (x1, y1, x2, y2) で、学生ネットワークが生成するk番目の有界ボックスの左下と右上角を表す。 0.76
Typically, this is achieved by regressing the offset of an anchor box or object proposal. 通常、これはアンカーボックスやオブジェクトの提案のオフセットを後退させることで達成される。 0.63
We then make use of a Spatial Transformer [20] to extract the image region corresponding to Bk. 次に、空間変換器[20]を用いてBkに対応する画像領域を抽出する。 0.68
Specifically, we compute the transformer matrix 具体的には トランスフォーマーマトリクスを計算し 0.76
(cid:20)(x2 − x1)/w (cid:20)(x2 − x1)/w 0.78
0 Ak = −1 + (x1 + x2)/w (y2 − y1)/h −1 + (y1 + y2)/h 0 Ak= −1 + (x1 + x2)/w (y2 − y1)/h −1 + (y1 + y2)/h 0.82
0 , (cid:21) 0 , (cid:21) 0.83
which allows us to extract the predicted object region Op これにより、予測対象領域 Op を抽出できます。 0.57
k with a grid sampling size s as k をグリッドサンプリングサイズ s とする 0.69
Op k = fST (Ak, I, s) , オオ k = fST (Ak, I, s) , 0.69
where fST denotes the spatial transformer function. fST は空間変換関数を表す。 0.63
As illustrated in the right portion of Figure 1(b), we then perform distillation by comparing the teacher’s intermediate features within the predicted k to those within its assigned ground-truth one Ogt object region Op k . 図1(b)の右に示すように、予測kにおける教師の中間の特徴を、割り当てられた1つのオクト対象領域op k内のそれと比較することにより、蒸留を行う。 0.70
Specifically, for a given layer (cid:96), we seek to compare the features F (cid:96) t (Op k ) of the positive box k. To relax the pixel-wise difference between the features, we make use of the adaptive pooling strategy of [29], which produces a feature map AP (F (cid:96) t (O)) of a fixed size M × W × H from the features extracted within region O. 特に、所定の層 (cid:96) に対して、正の箱 k の特徴 f (cid:96) t (op k ) を比較して、その特徴間の画素間差を緩和するために、[29] の適応プーリング戦略を用いて、領域 o 内で抽出された特徴量 m × w × h から特徴写像 ap (f (cid:96) t (o)) を生成する。 0.84
We therefore write our localization distillation loss as したがって ローカライズ蒸留の損失は 0.51
k) and F (cid:96) k) および F (cid:96) 0.92
t (Ogt t (複数形 ts) 0.44
Lkd−loc = 1 Lkd−loc = 1 0.78
KLM HW k=1 KLM HW k=1 0.72
(cid:96)=1 (cid:96)=1 0.74
1(cid:96)(cid:107)AP (F (cid:96) 1(cid:96)(cid:107)AP (F (cid:96) 0.82
t (Op k)) − AP (F (cid:96) t(Op) k) − AP (F (cid:96) 0.88
t (Ogt t (複数形 ts) 0.44
k ))(cid:107)1 , k ))(cid:107)1 , 0.96
(10) where K is the number of positive anchor boxes or proposals, L is the number of layers at which we perform distillation, 1l is the indicator function to denote whether the layer (cid:96) is used or not to distill knowledge, and (cid:107) · (cid:107)1 denotes the L1 norm. (10) K が正のアンカーボックス数または提案数である場合、L は蒸留を行うレイヤ数であり、1l は知識を蒸留するために層 (cid:96) が使われているかどうかを示す指標関数であり、(cid:107) · (cid:107)1 は L1 ノルムを表す。 0.84
As both the spatial transformer and the adaptive pooling operation are differentiable, this loss can be backpropagated through the student detector. 空間変圧器と適応プーリング操作の両方が微分可能であるので、この損失は学生検出器を介して逆伝播することができる。
訳抜け防止モード: 空間変圧器と適応プーリング操作の両方が微分可能である。 この損失は 生徒検出器を通して 逆転できる。
0.75
Note that, as a special case, our localization distillation strategy can be employed not only on intermediate feature maps but on the object region itself, encouraging the student to produce bounding boxes whose underlying image pixels match those of the ground-truth box. 特例として, ローカライゼーション蒸留戦略は, 中間的特徴地図だけでなく, 対象領域自体にも適用可能であり, 基礎となる画像画素が接地箱と一致する境界箱の作成を学生に促すことに留意されたい。 0.81
This translates to a loss function that does not exploit the teacher and can be expressed as これは、教師を利用せず、そのまま表現できる損失関数に変換される。 0.72
K(cid:88) L(cid:88) k(cid:88) l(cid:88) 0.77
(8) (9) K(cid:88) (8) (9) k(cid:88) 0.83
KM HW k=1 Lloc(Op, Ogt) = KM HW k=1 Lloc(Op, Ogt) = 0.76
1 (cid:107)AP (Op 1 (cid:107)AP (Op) 0.82
k) − AP (Ogt k) − AP(Ogt) 0.96
k )(cid:107)1 . k(cid:107)1。 0.76
(11) Depending on the output size of the adaptive pooling operation, this loss function encodes a moreor-less relaxed localization error. (11) 適応プーリング動作の出力サイズに応じて、この損失関数はより緩和されたローカライズエラーを符号化する。 0.81
As will be shown by our experiments, it can serve as an attractive alternative to the standard bounding box regression loss of existing object detectors, whether using distillation or not. 実験で示されたように, 蒸留の有無に関わらず, 既存の物体検出器の標準境界箱回帰損失に代えて, 魅力的な代替品として機能する。 0.78
3.3 Overall Training Loss 3.3 総合訓練損失 0.74
To train the student detector given the image classification teacher, we then seek to minimize the overall loss 画像分類教師を与えられた生徒検知器を 訓練するために 全体の損失を最小限に抑えるために 0.77
(12) where Ldet encompasses the standard classification and localization losses used to train the student detector of interest. (12) ldet は、学生の関心検出者の訓練に用いられる標準分類と局所化の損失を包含する。 0.76
λkc, λkl and λl are hyper-parameters setting the influence of each loss. λkc, λkl および λl は各損失の影響を設定する超パラメータである。 0.74
L = Ldet + λkcLkd−cls + λklLkd−loc + λlLloc , L = Ldet + λkcLkd-cls + λklLkd-loc + λlLloc 。 0.69
5 5 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Analysis of our classifier-to-detector distillation method with compact students on the COCO2017 validation set. 表1:COCO2017検証セット上のコンパクトな学生による分類器-検出器蒸留法の解析。 0.73
R50 is ResNet50, MV2 is MobileNetV2, QR50 is quartered ResNet50. R50はResNet50、MV2はMobileNetV2、QR50はResNet50である。 0.67
Method SSD300- VGG16 SSD300-VGG16 0.66
+ KDcls + loc + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + loc + KDloc + KDcls + loc + KDloc 0.85
SSD512-VGG16 SSD512-VGG16 0.39
+ KDcls + loc + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + loc + KDloc + KDcls + loc + KDloc 0.85
Faster RCNN-QR50 RCNN-QR50の高速化 0.40
+ KDcls + loc + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + loc + KDloc + KDcls + loc + KDloc 0.85
Faster RCNN-MV2 高速RCNN-MV2 0.53
+ KDcls + loc + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + loc + KDloc + KDcls + loc + KDloc 0.85
mAP 25.6 26.3 (↑ 0.7) 27.1 (↑ 1.5) 27.2 (↑ 1.6) 27.9 (↑ 2.3) MAP 25.6 26.3 (↑ 0.7) 27.1 (↑ 1.5) 27.2 (↑ 1.6) 27.9 (↑ 2.3) 0.61
29.4 30.3 (↑ 0.9) 30.8 (↑ 1.4) 31.0 (↑ 1.6) 32.1 (↑ 2.7) 29.4 30.3 (↑ 0.9) 30.8 (↑ 1.4) 31.0 (↑ 1.6) 32.1 (↑ 2.7) 0.63
23.3 25.9 (↑ 2.6) 24.2 (↑ 0.9) 24.3 (↑ 1.0) 27.2 (↑ 3.9) 23.3 25.9 (↑ 2.6) 24.2 (↑ 0.9) 24.3 (↑ 1.0) 27.2 (↑ 3.9) 0.63
31.9 32.6 (↑ 0.7) 32.2 (↑ 0.3) 32.3 (↑ 0.4) 32.7 (↑ 0.8) 31.9 32.6 (↑ 0.7) 32.2 (↑ 0.3) 32.3 (↑ 0.4) 32.7 (↑ 0.8) 0.63
4 Experiments AP50 AP75 APs APm APl mAR ARs ARm ARl 58.6 43.8 45.2 59.1 60.6 43.2 61.5 43.3 61.4 45.1 60.6 49.3 60.4 51.1 48.8 63.4 63.2 49.1 63.1 51.0 51.8 40.7 54.9 45.5 41.1 54.8 54.7 41.0 58.3 46.0 60.4 52.0 61.5 53.3 51.9 61.5 61.6 52.0 52.9 61.9 4つの実験 AP50 AP75 APs APm APl mAR ARs ARm ARl 58.6 43.8 45.2 59.1 60.6 43.2 61.5 43.3 61.4 45.1 60.6 49.3 60.4 51.1 48.8 63.4 63.2 49.1 63.1 51.0 51.8 40.7 54.9 45.5 41.1 54.8 54.7 41.0 58.3 46.0 60.4 52.0 61.5 53.3 51.9 61.5 61.6 52.0 52.9 61.9 0.55
41.7 42.6 44.4 44.7 44.7 48.7 49.0 51.1 51.6 51.2 42.8 46.0 44.3 44.6 48.1 50.9 51.2 50.8 51.3 51.8 41.7 42.6 44.4 44.7 44.7 48.7 49.0 51.1 51.6 51.2 42.8 46.0 44.3 44.6 48.1 50.9 51.2 50.8 51.3 51.8 0.41
26.3 27.2 28.4 28.5 29.2 31.0 31.7 32.9 32.8 34.0 23.9 26.2 25.0 25.1 27.7 34.0 34.6 34.2 34.7 35.0 26.3 27.2 28.4 28.5 29.2 31.0 31.7 32.9 32.8 34.0 23.9 26.2 25.0 25.1 27.7 34.0 34.6 34.2 34.7 35.0 0.41
37.6 38.4 40.0 40.2 40.4 42.7 43.3 44.7 45.0 45.3 40.2 42.8 41.7 41.6 44.5 47.5 48.1 47.9 48.0 48.4 37.6 38.4 40.0 40.2 40.4 42.7 43.3 44.7 45.0 45.3 40.2 42.8 41.7 41.6 44.5 47.5 48.1 47.9 48.0 48.4 0.41
6.8 7.3 7.5 7.5 8.1 11.7 12.7 12.8 12.6 13.3 13.1 15.3 13.7 13.0 15.2 18.5 18.9 18.3 18.1 19.0 6.8 7.3 7.5 7.5 8.1 11.7 12.7 12.8 12.6 13.3 13.1 15.3 13.7 13.0 15.2 18.5 18.9 18.3 18.1 19.0 0.41
27.8 28.5 29.4 29.5 30.1 34.1 34.6 35.8 35.8 36.6 25.0 27.9 25.8 25.9 29.3 34.4 34.8 34.4 34.8 35.0 27.8 28.5 29.4 29.5 30.1 34.1 34.6 35.8 35.8 36.6 25.0 27.9 25.8 25.9 29.3 34.4 34.8 34.4 34.8 35.0 0.41
42.2 43.6 43.3 43.5 45.4 44.9 45.5 46.2 46.2 47.9 30.7 34.0 32.1 32.5 36.2 41.0 42.3 41.8 41.6 42.9 42.2 43.6 43.3 43.5 45.4 44.9 45.5 46.2 46.2 47.9 30.7 34.0 32.1 32.5 36.2 41.0 42.3 41.8 41.6 42.9 0.41
12.5 12.8 13.4 13.2 13.9 17.6 19.4 18.8 18.9 20.1 22.7 25.5 23.8 22.7 25.9 29.7 29.7 29.0 28.7 29.9 12.5 12.8 13.4 13.2 13.9 17.6 19.4 18.8 18.9 20.1 22.7 25.5 23.8 22.7 25.9 29.7 29.7 29.0 28.7 29.9 0.41
In this section, we first conduct a full study of our classification and localization distillation methods on several compact detectors, and then compare our classifier-to-detector approach to the state-ofthe-art detector-to-detector ones. 本節では,まず,いくつかの小型検出器の蒸留方法と局所蒸留方法の完全な研究を行い,その分類器から検出器へのアプローチと,最先端の検出器から検出者へのアプローチを比較した。 0.62
Finally, we perform an extensive ablation study of our method and analyze how it improves the class recognition and localization in object detection. 最後に,本手法の広範囲にわたるアブレーション研究を行い,オブジェクト検出におけるクラス認識と局所化の改善について分析する。 0.75
All models are trained and evaluated on MS COCO2017 [24], which contains over 118k images for training and 5k images for validation (minival) depicting 80 foreground object classes. すべてのモデルは、トレーニング用の118kイメージと80のforegroundオブジェクトクラスを描写した5kイメージ(minival)を含むms coco2017 [24]でトレーニングおよび評価される。 0.77
Our implementation is based on mmdetection [6] with Pytorch [30]. 実装は pytorch [30] による mmdetection [6] に基づいている。 0.78
Otherwise specified, we take the ResNet50 as the classification teacher. そうでなければ、ResNet50を分類教師とします。 0.73
We will use the same teacher for all two-stage Faster RCNNs and one-stage RetinaNets in our classifier-to-detector distillation method. 我々は,2段階の高速RCNNと1段階のRetinaNetで同じ教師を,分類器-検出器蒸留法で使用する。 0.64
We consider this to be an advantage of our method, since it lets us use the same teacher for multiple detectors. 複数の検知器に同じ教師を使うことができるので、これは私たちの方法の利点だと考えています。 0.72
To train this classification teacher, we use the losses from Faster RCNN and RetinaNet frameworks jointly. この分類教師の訓練には、Faster RCNNとRetinaNetフレームワークの損失を併用する。 0.69
Since SSDs use different data augmentation, we train another ResNet50 classification teacher for them. SSDは異なるデータ拡張を使用するため、別のResNet50分類教師を訓練する。 0.78
Additional experimental details on how to train our classification teachers are provided in the supplementary material. 補足資料に分類教師の教育方法に関する追加の実験的詳細が記載されている。 0.71
4.1 Classifier-to-Detector Distillation on Compact Students 4.1 小型学生における分類器-検出器蒸留 0.48
We first demonstrate the effectiveness of our classifier-to-detector distillation method on compact detectors, namely, SSD300, SSD512 and the two-stage Faster RCNN detector with lightweight backbones, i.e., MobileNetV2 and Quartered-ResNet50 (QR50), obtained by dividing the number of channels by 4 in every layer of ResNet50, reaching a 66.33% top-1 accuracy on ImageNet [21]. まず,ssd300,ssd512および2段高速rcnn検出器の軽量バックボーン,すなわち mobilenetv2 および quartered-resnet50 (qr50) を用いて,resnet50の各層でチャネル数を4分し,imagenet [21] 上で66.33%のtop-1精度を得た。 0.63
Experimental setting. All object detectors are trained in their default settings on Tesla V100 GPUs. 実験的な設定。 すべてのオブジェクト検出器は、デフォルト設定でTesla V100 GPUでトレーニングされる。 0.69
The SSDs follows the basic training recipe in mmdetection [6]. ssd は mmdetection [6] の基本的なトレーニングレシピに従っている。 0.67
The lightweight Faster RCNNs are trained with a 1× training schedule for 12 epochs. 軽量の高速RCNNは12時間で1倍のトレーニングスケジュールで訓練される。 0.71
The details for the training settings of each model are provided in the supplementary material. 補足資料には、各モデルのトレーニング設定の詳細が記載されている。 0.72
We use a ResNet50 with input resolution 112 × 112 as classification teacher for all student detectors. 入力解像度112×112のResNet50を全学生検出器の分類教師として使用する。 0.73
We report the mean average precision (mAP) and mean average recall (mAR) for intersection over unions (IoUs) in [0.5:0.95], the APs at IoU=0.5 and 0.75, and the APs and ARs for small, medium and large objects. 我々は,[0.5:0.95]における結合(IoUs)とIoU=0.5および0.75における結合(IoUs)の平均的精度(mAP)と平均的リコール(mAR)について報告する。 0.76
Results. The results are shown in Table 1. 結果。 結果は表1に示されています。 0.69
Our classification distillation yields improvements of at least 0.7 mAP for all student detectors. 我々の分類蒸留は、すべての学生検出器に対して少なくとも0.7mAPの改善をもたらす。 0.58
It reaches a 2.3 mAP improvement for Faster RCNN-QR50, which indicates that the classification in this model is much weaker. より高速なRCNN-QR50では2.3mAPの改善が達成されており、このモデルの分類がより弱いことを示している。 0.62
The classification distillation improves AP50 more than AP75, while the localization distillation improves AP75 more than AP50. 分類蒸留はAP75よりもAP50が良くなり、ローカライゼーション蒸留はAP50よりもAP75が良くなる。 0.60
As 6 として 6 0.66
英語(論文から抽出)日本語訳スコア
increasing AP75 requires more precise localization, these results indicate that each of our distillation losses plays its expected role. AP75の高度化にはより正確な局所化が必要であるが, これらの結果は, それぞれの蒸留損失が期待される役割を担っていることを示唆している。 0.49
Note that the SSDs benefit more from the localization method than the Faster RCNNs. SSDは、より高速なRCNNよりもローカライズ手法の恩恵を受ける。 0.66
We conjecture this to be due to the denser, more accurate proposals of the Faster RCNNs compared to the generic anchors of the SSDs. 我々は、SSDの一般的なアンカーと比較して、より高密度で正確なRCNNの提案が原因であると推測する。 0.66
Note also that a Faster RCNNs with a smaller backbone benefits more from our distillation than a larger one. さらに、より小さなバックボーンを持つより高速なrcnnは、より大きなものよりも蒸留の恩恵を受けることに注意してください。 0.53
4.2 Comparison with Detector-to-detector Distillation 4.2 検出器間蒸留との比較 0.54
We then compare our classifier-to-detector distillation approach with the state-of-the-art detector-todetector ones, such as KD [5], FGFI [38], GID [8] and FKD [42]. 次に,KD[5],FGFI[38],GID[8],FKD[42]といった最先端の検出器・トデクターと比較した。
訳抜け防止モード: 次に,我々の分類器--検出器蒸留アプローチと--アート検出器--検出器の状態を比較した。 例えば kd [ 5 ], fgfi [ 38 ], gid [ 8 ] と fkd [ 42 ] である。
0.67
Here, in addition to the compact students used in Section 4.1, we also report results on the larger students that are commonly used in the literature, i.e., Faster RCNN and RetinaNet with deeper ResNet50 (R50) backbones. ここでは,第4.1節で使用したコンパクトな学生の他に,文献で広く使われているより大きな学生,すなわちより深いresnet50(r50)バックボーンを持つ高速なrcnnとretinanetについて報告する。 0.78
Experimental setting. Following [42], the Faster RCNN-R50 and RetinaNet-R50 are trained with a 2× schedule for 24 epochs. 実験的な設定。 42]に続いて、高速rcnn-r50とretinanet-r50は24時間2×スケジュールで訓練される。 0.69
To illustrate the generality of our approach, we also report the results of our distillation strategy used in conjunction with FKD [42], one of the current best detector-todetector distillation methods. 本手法の汎用性を説明するため,現在最も優れた検出器-検出器蒸留法の一つであるfkd [42] と併用した蒸留戦略の結果を報告する。 0.78
Note that, while preparing this work, we also noticed the concurrent work of [12], whose DeFeat method also follows a detector-to-detector distillation approach, and thus could also be complemented with out strategy. また,本研究を準備中, [12] の同時処理にも気付き,DeFeat 法は検出器-検出器間蒸留法にも従うため, アウト戦略を補完することも可能であった。 0.78
Results. We report the results in Table 2. 結果。 結果は第2表で報告する。 0.65
For compact student detectors, such as Faster RCNN-QR50 and SSD512, our classifier-todetector distillation surpasses the best detectorto-detector one by 1.1 and 0.9 mAP points, respectively. より高速なRCNN-QR50やSSD512のような小型の学生検出器では、分類器-トデクター蒸留は、それぞれ1.1mAP点と0.9mAP点を上回ります。
訳抜け防止モード: 高速rcnn - qr50 および ssd512 などの小型学生検出器について 我々の分類器は,1.1倍,0.9倍のマッピングポイントで,最も優れた検出器であるtodetector distillationを上回っている。
0.55
For student detectors with deeper backbones, our methods can improve the baseline by 0.4, 0.5 and 0.8 points. より深いバックボーンを持つ学生検出器では, ベースラインを0.4, 0.5, 0.8ポイント改善できる。 0.67
Furthermore, using it in conjunction with the FKD detectorto-detector distillation method boosts the performance to 41.9, 40.7 and 34.2 mAP. さらに、FKD検出器-検出器蒸留法と併用することで41.9、40.7、34.2mAPの性能が向上する。
訳抜け防止モード: さらにfkd検出器と併用して-検出器蒸留法 性能を41.9 , 40.7 および 34.2 map に向上させる。
0.65
Table 2: Comparison to detector-to-detector distillation methods on the COCO2017 validation set. 表2:COCO2017検証セットにおける検出器間蒸留法との比較 0.78
Faster RCNN-R50 RCNN-R50の高速化 0.41
Method 4.3 Ablation Study 方法 4.3 アブレーション研究 0.74
Faster RCNN-QR50 RCNN-QR50の高速化 0.40
+ FKD [42] + Ours + Ours + FKD FKD [42] + Ours + Ours + FKD 0.75
In this section, we investigate the influence of the hyper-parameters and of different classification teachers in our approach. 本稿では,ハイパーパラメータと異なる分類教師の影響について検討する。
訳抜け防止モード: 本稿では,ハイパーパラメータの影響について検討する。 私達のアプローチでは 異なる分類の教師がいます
0.68
To this end, we use the SSD300 student detector. この目的のために、SSD300の学生検出器を使用する。 0.61
Ablation study of KDcls. KDclのアブレーション研究 0.69
We first study the effect of the loss weight λkc and the temperature T for classification distillation. まず, 分級蒸留における損失重量λkcと温度tの影響について検討した。 0.65
As shown in Table 3a, these two hyper-parameters have a mild impact on the results, and we obtain the best results with λkc = 0.4 and T = 2, which were used for all other experiments. 表3aに示すように、これらの2つのハイパーパラメータは結果に穏やかな影響を与え、他の実験で使われたλkc = 0.4 と T = 2 の最良の結果が得られる。 0.79
We then investigate the impact of different classification teacher networks. 次に、異なる分類教師ネットワークの影響について検討する。 0.69
To this end, we trained three teacher networks ranging from shallow to deep: ResNet18, ResNet50 and ResNext10132×8d. そこで我々は,浅層から深層までの3つの教師ネットワーク,ResNet18,ResNet50,R esNext10132×8dをトレーニングした。 0.62
We further study the impact of the input size to these teachers on classification distillation, using the three sizes [56 × 56, 112 × 112, 224 × 224]. さらに,3つのサイズ [56 × 56, 112 × 112, 224 × 224] を用いて,これらの教師に対する入力サイズの影響について検討した。 0.83
As shown in Table 3b, even the shallow ResNet18 classification teacher can improve the performance of the student detector by 0.3 points, and the improvement increases by another 0.4 points with the deeper ResNet50 teacher. 表3bに示すように、浅いResNet18の分類教師でさえ、学生検出器の性能を0.3ポイント向上させ、さらに深いResNet50教師で0.4ポイント向上させることができる。 0.70
However, the performance drops with the ResNeXt101 teacher, which is the teacher with the highest top-1 accuracy. しかし、パフォーマンスはtop-1の精度が最も高い教師であるresnext101の先生によって低下する。 0.73
This indicates that a deeper teacher is not always helpful, as it might be overconfident to bring much additional information compared to the ground-truth labels. これは、より深い教師が常に役に立つとは限らないことを示している。
訳抜け防止モード: これは、より深い教師が常に役に立つとは限らないことを示している。 真実のラベルよりも多くの情報をもたらすことは、過信されるかもしれない。
0.53
As for the input size, we observe only small variations across the different sizes, and thus use a size of 112 in all other experiments. 入力サイズについては、異なるサイズにまたがる小さなバリエーションのみを観察し、他の全ての実験で112の大きさを使用する。 0.80
Ablation study of KDloc. KDlocのアブレーション研究 0.67
We then evaluate the influence of the two main hyper-parameters of localization distillation, i.e., the grid sampling size of the spatial transformer and the adaptive pooling 次に, 定位蒸留の2つの主要なハイパーパラメータ, すなわち空間変圧器のグリッドサンプリングサイズと適応プーリングの影響について評価した。 0.75
+ FKD [42] + Ours FKD [42] + Ours 0.69
+ FKD [42] + Ours FKD [42] + Ours 0.69
SSD512-VGG16 SSD512-VGG16 0.39
+ KD [5] + FGFI [38] + GID [8] + FKD [42] + Ours + Ours + FKD RetinaNet-R50 + FGFI [38] + GID [8] + FKD [42] + Ours + Ours +FKD + KD [5] + FGFI [38] + GID [8] + FKD [42] + Ours + FKD RetinaNet-R50 + FGFI [38] + GID [8] + FKD [42] + Ours + FKD + FKD + FKD 0.89
Faster RCNN-MV2 高速RCNN-MV2 0.53
mAP APs APm APl 50.3 38.4 51.0 38.7 51.1 39.1 40.2 53.2 55.3 41.5 50.8 38.8 56.0 41.9 49.7 37.4 38.6 51.5 52.3 39.1 52.5 39.6 50.5 37.9 53.8 40.7 31.9 41.0 45.4 33.9 42.9 32.7 45.9 34.2 30.7 23.3 26.1 35.0 36.2 27.2 44.9 29.4 46.2 31.2 32.1 47.9 mAP APs APm APl 50.3 38.4 51.0 38.7 51.1 39.1 40.2 53.2 55.3 41.5 50.8 38.8 56.0 41.9 49.7 37.4 38.6 51.5 52.3 39.1 52.5 39.6 50.5 37.9 53.8 40.7 31.9 41.0 45.4 33.9 42.9 32.7 45.9 34.2 30.7 23.3 26.1 35.0 36.2 27.2 44.9 29.4 46.2 31.2 32.1 47.9 0.42
42.1 41.9 42.9 44.0 45.0 42.5 45.2 40.7 42.5 43.1 43.3 41.3 44.7 34.4 36.3 35.0 36.3 25.0 27.3 29.3 34.1 37.4 36.6 42.1 41.9 42.9 44.0 45.0 42.5 45.2 40.7 42.5 43.1 43.3 41.3 44.7 34.4 36.3 35.0 36.3 25.0 27.3 29.3 34.1 37.4 36.6 0.40
21.5 22.0 22.2 22.7 23.5 22.5 23.8 20.0 21.4 22.8 22.7 20.5 23.1 18.5 18.3 19.0 18.5 13.1 14.6 15.2 11.7 12.6 13.3 21.5 22.0 22.2 22.7 23.5 22.5 23.8 20.0 21.4 22.8 22.7 20.5 23.1 18.5 18.3 19.0 18.5 13.1 14.6 15.2 11.7 12.6 13.3 0.40
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 3: Ablation study of KDcls. 表3: KDclsのアブレーション研究 0.69
We evaluate the impact of the hyper-parameters and of various classification teachers on our classification distillation. ハイパーパラメーターと各種分類教師が分類蒸留に及ぼす影響について検討した。 0.75
(a) Varying λkc and T . (a)λkc と T の変数。 0.72
λkc baseline 0.1 0.1 0.2 0.3 0.4 0.4 0.4 λkc基線0.1 0.1 0.2 0.3 0.4 0.4 0.4 0.43
T mAP AP50 AP75 26.3 / 26.6 1 25.7 2 26.6 1 1 26.7 26.6 1 27.2 2 3 26.7 T mAP AP50 AP75 26.3 / 26.6 1 25.7 2 26.6 1 26.7 26.6 1 27.2 2 3 26.7 0.65
25.6 25.8 25.4 25.8 26.0 26.1 26.3 26.0 25.6 25.8 25.4 25.8 26.0 26.1 26.3 26.0 0.42
43.8 44.2 44.4 44.2 44.6 44.8 45.2 45.2 43.8 44.2 44.4 44.2 44.6 44.8 45.2 45.2 0.42
(b) Varying the teacher network. (b)教師ネットワークの変更。 0.67
Teacher ResNet18 ResNet50 ResNeXt101 Teacher ResNet18 ResNet50 ResNeXt101 0.74
Top-1 mAP AP50 AP75 26.4 75.78 27.2 80.30 83.35 25.8 Top-1 mAP AP50 AP75 26.4 75.78 27.2 80.30 83.35 25.8 0.48
25.9 26.3 25.3 25.9 26.3 25.3 0.47
44.4 45.2 43.3 44.4 45.2 43.3 0.47
Input size 56 × 56 112 × 112 224 × 224 Input size 56 × 56 112 × 112 224 × 224 0.85
Top-1 mAP AP50 AP75 76.26 26.9 27.2 80.30 80.41 26.9 Top-1 mAP AP50 AP75 76.26 26.9 27.2 80.30 80.41 26.9 0.48
26.2 26.3 26.2 26.2 26.3 26.2 0.47
44.8 45.2 44.9 44.8 45.2 44.9 0.47
Table 4: Ablation study of KDloc. 表4: KDlocのアブレーション研究 0.70
We investigate the effect of the sampling size, the pooling size and the choice of distilled layers on our localization distillation. 本研究では, サンプリングサイズ, プールサイズ, 蒸留層の選択がローカライズ蒸留に及ぼす影響について検討した。 0.75
(a) Varying the sampling size. (a)サンプリングサイズを変化させる。 0.76
(b) Varying the pooling size. (b)プールサイズを異にする。 0.77
(c) Varying distilled layers. (c)様々な蒸留層。 0.75
Sampling size mAP AP50 AP75 27.0 27.8 28.0 28.1 28.2 サンプリングサイズmAP AP50 AP75 27.0 27.8 28.0 28.1 28.2 0.53
14 × 14 28 × 28 56 × 56 112 × 112 224 × 224 14 × 14 28 × 28 56 × 56 112 × 112 224 × 224 0.85
43.0 43.2 43.3 43.5 43.4 43.0 43.2 43.3 43.5 43.4 0.44
26.4 26.7 26.8 27.0 27.0 26.4 26.7 26.8 27.0 27.0 0.44
Pooling size mAP AP50 AP75 27.5 28.1 28.4 28.1 ポリシングサイズmAP AP50 AP75 27.5 28.1 28.4 28.1 0.50
2 × 2 4 × 4 8 × 8 16 × 16 2 × 2 4 × 4 8 × 8 16 × 16 0.85
43.5 43.5 43.2 42.8 43.5 43.5 43.2 42.8 0.45
26.6 27.0 27.1 26.9 26.6 27.0 27.1 26.9 0.45
(cid:96)0 (cid:96)0。 0.69
obj (cid:96)1 mAP (cid:88) 27.1 (cid:88) 26.8 (cid:88) (cid:88) 27.2 (cid:88) (cid:88) (cid:88) 26.9 obj (cid:96)1 mAP (cid:88) 27.1 (cid:88) 26.8 (cid:88) 27.2 (cid:88) (cid:88) 26.9 0.80
size of the feature maps. 特徴マップのサイズです 0.61
To this end, we vary the sampling size in [14, 28, 56, 112, 224] and the pooling size in [2 × 2, 4 × 4, 8 × 8, 16 × 16]. これにより, [14, 28, 56, 112, 224] のサンプリングサイズと [2 × 2, 4 × 4, 8 × 8, 16 × 16] のプールサイズが変化する。
訳抜け防止モード: この目的のために、[14]におけるサンプリングサイズを変化させる。 28,56,112,224]および[2×2]のプールサイズ 4 × 4, 8 × 8, 16 × 16 ] .
0.83
As shown in Table 4a, our localization distillation method benefits from a larger sampling size, although the improvement saturates after a size of 112. 表4aに示すように, 局部蒸留法は試料径が大きくなると有効であるが, 改良は112。 0.66
This lets us use the same classification teacher, with input size 112, for both classification and localization distillation. これにより、分類とローカライゼーション蒸留の両方に、入力サイズ112の同じ分類教師を使うことができる。 0.70
The adaptive pooling size has a milder effect on the performance, as shown in Table 4b, with a size of 8 yielding the best mAP. 適応プーリングサイズは、表4bに示すように、性能に穏やかな効果があり、サイズは8で最高のmAPが得られる。 0.70
In our experiments, we adopt either 4 or 8, according to the best performance on the validation set. 実験では、検証セットの最高のパフォーマンスに従って、4または8を採用する。 0.66
We further study the layers to be distilled in our localization distillation. さらに, ローカライズ蒸留で蒸留する層についても検討した。 0.61
To this end, we extract features from the first convolutional layer (cid:96)0, and from the following bottleneck block (cid:96)1 of the ResNet50 teacher. この目的のために、ResNet50 教師の最初の畳み込み層 (cid:96)0 と次のボトルネックブロック (cid:96)1 から特徴を抽出する。 0.78
As shown in Table 4c, distilling the knowledge of only the object regions (obj) yields a better mAP than using the (cid:96)0 features. 表4cに示すように、対象領域 (obj) のみの知識を蒸留すると、 (cid:96)0 の特徴を使用するよりもよい mAP が得られる。 0.70
However, combining the object regions with the feature maps from (cid:96)0 improves the results. しかし、オブジェクト領域と(cid:96)0の機能マップを組み合わせることで、結果が改善される。 0.73
Adding more layers does not help, which we conjecture to be due to the fact that these layers extract higher-level features that are thus less localized. より多くのレイヤを追加することは役に立たないが、これはこれらのレイヤがローカライズされていない高レベルな特徴を抽出するという事実から推測される。
訳抜け防止モード: レイヤの追加 役に立たないでしょう これらの層が高レベルな特徴を抽出しているため、ローカライズされていないからです。
0.64
4.4 Analysis To further understand how our classifier-todetector distillation method affects the quality of the classification and localization, in Table 5, we report the APs obtained with IoUs in [0.5, 0.95] with a step of 0.05. 4.4 分析 分類器-トデクター蒸留法が分類と局在の質にどのように影響するかをさらに理解するため,表5では[0.5, 0.95]のIoUsで得られたAPsを0.05ステップで報告する。 0.72
These results highlight that our classification and localization distillation strategies behave differently for different IoU thresholds. これらの結果から,IoU閾値の異なる分類法と局部蒸留法は異なる挙動を示した。 0.65
Specifically, KDcls yields larger improvements for smaller IoUs, whereas KDloc is more effective with IoUs larger than 0.75. 特に、kdcls はより小さい ious に対してより大きな改善をもたらすが、kdloc は 0.75 より大きい ious より効果的である。 0.59
This indicates that KDloc indeed focuses on precise localization, while KDcls distills category information. これは、KDlocが正確に局所化に焦点を当てているのに対して、KDclsはカテゴリ情報を蒸留していることを示している。 0.41
The complementarity of both terms is further evidenced by the fact that all APs increase when using both of them jointly. 両用語の相補性は、両者を共同で使うと全てのapsが増加するという事実によってさらに証明される。 0.60
Detection error analysis. We analyze the different types of detection errors using the tool proposed by Bolya et al [3] for the baseline SSD300 and the distilled models with our KDcls + loc + KDloc. 検出エラー解析。 ベースラインSSD300に対するBolya et al[3]の提案したツールと,KDcls + loc + KDlocを用いた蒸留モデルを用いて,検出エラーの種類を分析した。 0.77
We focus on the classification and localization errors, which are the main errors in object detection. 我々は、オブジェクト検出における主なエラーである分類と局所化エラーに焦点を当てる。 0.82
Figure 3: Detection error analysis. 図3: 検出エラー解析。 0.73
(a) Classification error. (b) Localization error. (a)分類誤差。 (b)ポジショニングエラー。 0.66
8 0.50.60.70.8iou12345 errorBaseline+ KD_cls0.50.60.70.8io u10203040errorBaseli ne+ loc + KD_loc 8 0.50.60.70.8iou12345 errorBaseline+KD_cls0.50.60.70.8io u10203040errorBaseli ne+loc + KD_loc 0.52
英語(論文から抽出)日本語訳スコア
Table 5: APs for IoUs ranging from 0.5 to 0.95 on the COCO2017 validation set. 表5: IoUのAPはCOCO2017検証セットで0.5から0.95の範囲である。 0.67
Method SSD300 メソッドSSD300 0.73
+ KDcls + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + KDloc + KDcls + loc + KDloc 0.85
41.3 42.6 41.3 42.8 41.3 42.6 41.3 42.8 0.45
mAP AP50 AP55 AP60 AP65 AP70 AP75 AP80 AP85 AP90 AP95 0.5 25.6 0.5 26.3 1.3 27.2 27.9 1.2 mAP AP50 AP55 AP65 AP70 AP75 AP80 AP85 AP95 AP95 0.5 25.6 0.5 26.3 1.3 27.2 27.9 1.2 0.53
38.4 39.9 38.8 40.2 38.4 39.9 38.8 40.2 0.45
20.3 21.0 23.0 23.9 20.3 21.0 23.0 23.9 0.45
43.8 45.2 43.3 45.1 43.8 45.2 43.3 45.1 0.45
35.1 36.1 36.0 37.0 35.1 36.1 36.0 37.0 0.45
31.2 31.6 32.9 34.0 31.2 31.6 32.9 34.0 0.45
26.3 27.2 28.5 29.2 26.3 27.2 28.5 29.2 0.45
13.0 13.5 16.5 17.0 13.0 13.5 16.5 17.0 0.45
5.2 5.1 8.4 8.8 5.2 5.1 8.4 8.8 0.45
Figure 4: Qualitative analysis (better viewed in color). 図4:定性的分析(色で見る)。 0.72
The ground-truth bounding boxes are in blue with their labels, and the predictions are in red with predicted labels and confidence. 表裏のバウンディングボックスはラベルが青で、予測は赤で、予測されたラベルと自信があります。 0.59
The details of all error types are provided in the supplementary material. すべてのエラータイプの詳細は補足資料に記載されている。 0.71
As shown in Figure 3a, KDcls decreases the classification error especially for IoUs smaller than 0.65. 図3aに示すように、kdclsは分類誤差を0.65未満で減少させる。 0.72
By contrast, as shown in Figure 3b, the effect of KDloc increases with the IoU. 一方、図3bに示すように、KDlocの効果はIoUによって増加する。 0.75
This again shows the complementary nature of these terms. これは再びこれらの用語の相補的な性質を示す。 0.63
Qualitative analysis. Figure 4 compares the detection results of the baseline model and of our distilled model on a few images. 定性分析。 図4は、ベースラインモデルと蒸留モデルの検出結果を、いくつかの画像上で比較する。 0.77
We observe that (i) the bounding box predictions of the distilled model are more precise than those of the baseline; (ii) the distilled model generates higher confidences for the correct predictions and is thus able to detect objects that were missed by the baseline, such as the boat in Figure 4c and the giraffe in Figure 4d. その結果, (i) 蒸留モデルのバウンディングボックス予測は, ベースラインのバウンディングボックス予測よりも精度が高く, (ii) 蒸留モデルでは, 正しい予測に対する高い信頼度が得られ, 図4cのボートや図4dのキリンなど, ベースラインで見逃された物体を検出することができることがわかった。 0.83
5 Conclusion We have introduced a novel approach to knowledge distillation for object detection, replacing the standard detector-to-detector strategy with a classifier-to-detector one. 5 結論 我々は,標準検出器対検出器戦略を分類器対検出器戦略に置き換えた,物体検出のための知識蒸留の新しいアプローチを導入した。 0.67
To this end, we have developed a classification distillation loss function and a localization distillation one, allowing us to exploit the classification teacher in two complementary manners. そこで我々は,2つの相補的な方法で分類教師を活用できるように,分類蒸留損失関数とローカライズ蒸留関数を開発した。 0.76
Our approach outperforms the state-of-theart detector-to-detector ones on compact student detectors. 本手法は, 学生用小型検出器において, 最先端の検出器対検出装置よりも優れる。 0.39
While the improvement decreases for larger student networks, our approach can nonetheless boost the performance of detector-to-detector distillation. より大規模な学生ネットワークでは改善が減少するが, 検出器・検出器蒸留の性能は向上する。 0.68
We have further shown that the same classification teacher could be used for all student detectors if they employ the same data augmentation strategy, thus reducing the burden of training a separate teacher for every student detector. さらに、同じデータ拡張戦略を採用する場合、同じ分類教師を全ての生徒検出器に使用することができ、生徒検出器毎に個別の教師を訓練する負担を軽減できることを示した。 0.77
Ultimately, we believe that our work opens the door to a new approach to distillation beyond object detection: Knowledge should be transferred not only across architectures, but also across tasks. 最終的には、私たちの仕事が、オブジェクト検出を超えた新たな蒸留アプローチへの扉を開くと信じています。
訳抜け防止モード: 究極的には、我々の研究は、物体検出を超えた新しい蒸留アプローチへの扉を開くと信じている。 知識はアーキテクチャ全体だけでなく、タスク間でも転送されるべきである。
0.63
Broader impact Knowledge distillation is a simple yet effective method to improve the performance of a compact neural network by exploiting the knowledge of a more powerful teacher model. 幅広い影響知識蒸留は、より強力な教師モデルの知識を活用し、コンパクトニューラルネットワークの性能を向上させるための単純かつ効果的な方法である。 0.81
Our work introduces a general approach to knowledge distillation for object detection to transfer knowledge across architectures and tasks. 本研究は,アーキテクチャやタスク間で知識を伝達するオブジェクト検出のための知識蒸留への一般的なアプローチを紹介する。 0.67
Our approach enables distilling knowledge from a single classification teacher into different student detectors. 本手法は,1つの分類教師からの知識を異なる生徒検出器に蒸留することを可能にする。 0.51
As such, our work reduces the need for a separate deep teacher detector for each student networks; therefore, we reduce training resources and memory footprint. そこで,本研究では,学習者ネットワーク毎に,個別の深い教師検出器の必要性を低減し,学習リソースとメモリフットプリントを削減した。 0.73
As we focus on compact networks, our work could significantly impact applications in resource-constrained environments, such as mobile phones, drones, or autonomous vehicles. 小型ネットワークに焦点を合わせると、携帯電話やドローン、自動運転車など、リソースに制約のある環境の応用に大きな影響を与える可能性がある。 0.59
We do not foresee any obvious undesirable ethical/social impact at this moment. 現時点では、明らかに望ましくない倫理的・社会的影響は予測できない。 0.42
9 BaselineOurs(a)(b)(c )(d) 9 BaselineOurs(a)(b)(c )(d) 0.85
英語(論文から抽出)日本語訳スコア
References [1] J. M. Alvarez and M. Salzmann. J.M. Alvarez と M. Salzmann を参照。 0.76
Learning the number of neurons in deep networks. ディープネットワーク内のニューロンの数を学習する。 0.72
In Advances in Neural Information Processing Systems. 進歩して ニューラル情報処理システム。 0.55
2016. [2] J. M. Alvarez and M. Salzmann. 2016. [2] j. m. alvarez と m. salzmann である。 0.72
Compression-aware training of deep networks. ディープネットワークの圧縮認識訓練 0.63
In Advances in Neural Information Processing Systems. 進歩の中で 神経情報処理システム。 0.69
2017. [3] D. Bolya, S. Foley, J. Hays, and J. Hoffman. 2017. D. Bolya, S. Foley, J. Hays, J. Hoffman. 0.81
Tide: A general toolbox for identifying object Tide: オブジェクトを識別するための一般的なツールボックス 0.70
detection errors. In European Conference on Computer Vision, 2020. 検出エラー。 2020年、欧州コンピュータビジョン会議に参加。 0.73
[4] Z. Cai and N. Vasconcelos. [4] Z. Cai と N. Vasconcelos 0.90
Cascade r-cnn: Delving into high quality object detection. カスケードr-cnn: 高品質なオブジェクト検出をデルビングする。 0.70
In Conference on Computer Vision and Pattern Recognition, 2018. 院 コンピュータビジョンとパターン認識に関する会議、2018年。 0.65
[5] G. Chen, W. Choi, X. Yu, T. Han, and M. Chandraker. [5]G. Chen、W. Choi、X. Yu、T. Han、M. Chandraker。 0.85
Learning efficient object detection models with knowledge distillation. 知識蒸留による効率的な物体検出モデルの学習 0.82
In Advances in Neural Information Processing Systems, 2017. 2017年、ニューラル・インフォメーション・プロセッシング・システム(Neural Information Processing Systems, 2017)。 0.60
[6] K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Xu, Z. Zhang, D. Cheng, C. Zhu, T. Cheng, Q. Zhao, B. Li, X. Lu, R. Zhu, Y. Wu, J. Dai, J. Wang, J. Shi, W. Ouyang, C. C. Loy, and D. Lin. K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Xu, Z. Zhang, D. Cheng, C. Zhu, T. Cheng, Q. Zhao, B. Li, X. Lu, R. Zhu, Y. Wu, J. Dai, J. Wang, J. Shi, W. Ouyang, C. C. Loy, D. Lin 0.92
MMDetection: Open mmlab detection toolbox and benchmark. mmdetection: オープンmmlab検出ツールボックスとベンチマーク。 0.80
arXiv Preprint, 2019. arXiv、2019年。 0.67
[7] M. Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, and Y. Bengio. [7]M.Courbariaux, I. Hubara, D. Soudry, R. El-Yaniv, Y. Bengio. 0.83
Binarized neural networks: Training deep neural networks with weights and activations constrained to+ 1 or-1. バイナリニューラルネットワーク: 重みとアクティベーションを+1または-1に制限したディープニューラルネットワークのトレーニング。 0.62
arXiv Preprint, 2016. 2016年、arxivプレプリント。 0.52
[8] X. Dai, Z. Jiang, Z. Wu, Y. Bao, Z. Wang, S. Liu, and E. Zhou. [8] X. Dai, Z. Jiang, Z. Wu, Y. Bao, Z. Wang, S. Liu, E. Zhou。 0.92
General instance distillation for object detection. 一般的な蒸留法 物体検出。 0.69
arXiv Preprint, 2021. arxivプリプリント、2021年。 0.49
[9] K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang, and Q. Tian. K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang, Q. Tian. 0.80
Centernet: Keypoint triplets for object Centernet: オブジェクトのキーポイントトリプル 0.86
detection. In International Conference on Computer Vision, 2019. 検出 2019年、国際コンピュータビジョン会議に参加。 0.62
[10] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. M.Everingham, L. Van Gool, C.K.I. Williams, J. Winn, A. Zisserman. 0.89
The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results. PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results 0.74
http://www.pascalnet work.org/challenges/ VOC/voc2007/workshop /index.html, 2007. http://www.pascalnet work.org/challenges/ VOC/voc2007/workshop /index.html, 2007 0.32
[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. 11]M.Everingham, L. Van Gool, C.K.I. Williams, J. Winn, A. Zisserman. 0.92
The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results. PASCAL Visual Object Classes Challenge 2012 (VOC2012) results 0.72
http://www.pascalnet work.org/challenges/ VOC/voc2012/workshop /index.html, 2012. http://www.pascalnet work.org/challenges/ VOC/voc2012/workshop /index.html, 2012 0.32
[12] J. Guo, K. Han, Y. Wang, H. Wu, X. Chen, C. Xu, and C. Xu. 12] j. guo, k. han, y. wang, h. wu, x. chen, c. xu, c. xu
訳抜け防止モード: [12 ]J.Guo, K. Han, Y. Wang, H.Wu、X.Chen、C.Xu、C.Xu。
0.78
Distilling object detectors via オブジェクト検出器の蒸留 0.84
decoupled features. arXiv Preprint, 2021. 切り離された特徴 arxivプリプリント、2021年。 0.54
[13] S. Han, H. Mao, and W. J. Dally. 13] S. Han, H. Mao, W. J. Dally. 0.88
Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding. ディープ圧縮: プルーニング、トレーニングされた量子化、ハフマン符号化でディープニューラルネットワークを圧縮する。 0.61
In International Conference on Learning Representations, 2016. 2016年、国際学習表現会議に参加。 0.78
[14] K. He, X. Zhang, S. Ren, and J. [14]K.He,X.Zhang,S. Ren,J. 0.80
Sun. Deep residual learning for image recognition. Sun 画像認識のための深い残差学習 0.67
Conference on Computer Vision and Pattern Recognition, 2016. 2016年、コンピュータビジョンとパターン認識に関する会議。 0.85
In [15] K. He, G. Gkioxari, P. Dollár, and R. Girshick. 院 K. He, G. Gkioxari, P. Dollár, R. Girshick. 0.56
Mask r-cnn. In International Conference on 仮面r-cnn。 国際会議において 0.70
Computer Vision, 2017. コンピュータビジョン、2017年。 0.86
[16] T. He, C. Shen, Z. Tian, D. Gong, C. Sun, and Y. Yan. 16] t. he, c. shen, z. tian, d. gong, c. sun, y. yan。 0.79
Knowledge adaptation for efficient semantic segmentation. 効率的な知識適応 セマンティクスのセグメンテーション。 0.73
In Conference on Computer Vision and Pattern Recognition, 2019. 2019年、コンピュータビジョンとパターン認識に関する会議。 0.78
[17] B. Heo, J. Kim, S. Yun, H. Park, N. Kwak, and J. Y. Choi. B. Heo, J. Kim, S. Yun, H. Park, N. Kwak, J. Y. Choi. 0.89
A comprehensive overhaul of feature 機能の包括的なオーバーホール 0.71
distillation. In International Conference on Computer Vision, 2019. 蒸留 2019年、国際コンピュータビジョン会議に参加。 0.61
[18] G. Hinton, O. Vinyals, and J. 18] g. hinton, o. vinyals, j. 0.60
Dean. Distilling the knowledge in a neural network. Dean ニューラルネットワークで知識を蒸留する。 0.59
arXiv Preprint, 2015. arXiv 2015年、プレプリント。 0.77
[19] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. A.G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, H. Adam. 0.93
Mobilenets: Efficient convolutional neural networks for mobile vision applications. Mobilenets: モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワーク。 0.75
arXiv Preprint, 2017. arxivプレプリント、2017年。 0.55
10 10 0.85
英語(論文から抽出)日本語訳スコア
[20] M. Jaderberg, K. Simonyan, A. Zisserman, and k. kavukcuoglu. M. Jaderberg, K. Simonyan, A. Zisserman, k. kavukcuoglu. 0.75
Spatial transformer networks. 空間トランスネットワーク。 0.55
In Advances in Neural Information Processing Systems, 2015. 2015年、ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems)。 0.67
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. A. Krizhevsky, I. Sutskever, G. E. Hinton. 0.72
Imagenet classification with deep convolutional 深層畳み込みによるイメージネット分類 0.77
neural networks. ニューラルネットワーク。 0.65
In Advances in Neural Information Processing Systems, 2012. 2012年、ニューラル・インフォメーション・プロセッシング・システムズ(Neural Information Processing Systems)に登場。 0.60
[22] H. Law and J. Deng. H. LawとJ. Deng 0.53
Cornernet: Detecting objects as paired keypoints. Cornernet: オブジェクトをペアのキーポイントとして検出する。 0.61
In European Conference on Computer Vision, 2018. 欧州会議において コンピュータビジョン、2018年。 0.67
[23] N. Lee, T. Ajanthan, and P. H. Torr. N. Lee, T. Ajanthan, P. H. Torr. 0.69
Snip: Single-shot network pruning based on connection Snip: 接続に基づくシングルショットネットワークプルーニング 0.85
sensitivity. In International Conference on Learning Representations, 2019. 感度 International Conference on Learning Representations, 2019に参加。 0.64
[24] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and L. Zitnick. [24]T-Y。 Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, L. Zitnick 0.86
Microsoft coco: Common objects in context. Microsoft Coco: コンテキスト内の共通オブジェクト。 0.83
In European Conference on Computer Vision, 2014. 2014年、欧州コンピュータビジョン会議に参加。 0.82
[25] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. [25]T-Y。 Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, S. Belongie 0.84
Feature pyramid networks for object detection. 物体検出のための特徴ピラミッドネットワーク 0.81
In Conference on Computer Vision and Pattern Recognition, 2017. 2017年、コンピュータビジョンとパターン認識に関する会議。 0.79
[26] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. [26]T-Y。 Lin, P. Goyal, R. B. Girshick, K. He, P. Dollár 0.85
Focal loss for dense object detection. 密度物体検出のための焦点損失 0.79
International Conference on Computer Vision, 2017. 2017年、国際コンピュータビジョン会議。 0.74
[27] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y 0.90
Fu, and A. C. Berg. FuとA.C. Berg。 0.84
Ssd: Single shot multibox detector. Ssd:シングル。 ショットマルチボックス検出器。 0.76
In European Conference on Computer Vision, 2016. 2016年、欧州コンピュータビジョン会議に参加。 0.80
[28] Y. Liu, K. Chen, C. Liu, Z. Qin, Z. Luo, and J. Wang. [28]Y.Lu、K.Chen、C.Lu、Z.Qin、Z.Luo、J.Wang。 0.63
Structured knowledge distillation for semantic segmentation. 構造的知識蒸留 セマンティクスのセグメンテーション。 0.65
In Conference on Computer Vision and Pattern Recognition, 2019. 2019年、コンピュータビジョンとパターン認識に関する会議。 0.78
[29] B. McFee, J. Salamon, and J. Bello. 29] b. mcfee、j. salamon、j. bello。 0.67
Adaptive pooling operators for weakly labeled sound event detection. 弱ラベル音響イベント検出のための適応プーリング演算子 0.80
IEEE/ACM Transactions on Speech and Language Processing, 26(11):2180–2193, 2018. IEEE/ACM Transactions on Speech and Language Processing, 26(11):2180–2193, 2018 0.92
ISSN 2329-9290. ISSN 2329-9290。 0.72
[30] A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison, A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison 0.90
L. Antiga, and A. Lerer. L. Antiga、A. Lerer。 0.87
Automatic differentiation in pytorch. pytorch (複数形 pytorchs) 0.59
2017. [31] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. 2017. [31]M. Rastegari、V. Ordonez、J. Redmon、A. Farhadi。 0.86
Xnor-net: Imagenet classification using Xnor-net:イメージネット分類 0.77
binary convolutional neural networks. 二進的畳み込みニューラルネットワーク 0.68
In European Conference on Computer Vision, 2016. 2016年、欧州コンピュータビジョン会議に参加。 0.80
[32] J. Redmon and A. Farhadi. J. RedmonとA. Farhadi。 0.63
Yolov3: An incremental improvement. yolov3: 漸進的な改善。 0.79
arXiv Preprint, 2018. arxivプレプリント、2018年。 0.47
[33] S. Ren, K. He, R. Girshick, and J. [33]S. Ren, K. He, R. Girshick, J. 0.89
Sun. Faster r-cnn: Towards real-time object detection with Sun Faster r-cnn: リアルタイムオブジェクト検出を目指して 0.63
region proposal networks. 地域プロポーザルネットワーク。 0.57
In Advances in Neural Information Processing Systems, 2015. 2015年、ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems)。 0.67
[34] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, Y. Bengio. 0.86
Fitnets: Hints for Fitnets: ヒント 0.61
thin deep nets. arXiv Preprint, 2014. 薄い深い網だ 2014年、arxivプレプリント。 0.60
[35] Y. Tian, D. Krishnan, and P. Isola. 35] y. tian, d. krishnan, p. isola。 0.73
Contrastive representation distillation. In International 対照的な表現蒸留。 海外では 0.63
Conference on Learning Representations, 2020. 2020年 学習表象会議開催。 0.67
[36] Z. Tian, C. Shen, H. Chen, and T. He. [36] Z. Tian, C. Shen, H. Chen, T. He。 0.94
Fcos: Fully convolutional one-stage object detection. Fcos: 完全な畳み込み1ステージオブジェクト検出。 0.75
In International Conference on Computer Vision, October 2019. 院 国際コンピュータビジョン会議、2019年10月。 0.60
[37] K. Ullrich, E. Meeds, and M. Welling. [37]Ullrich、E. Meeds、M. Welling。 0.60
Soft weight-sharing for neural network compression. ニューラルネットワーク圧縮のためのソフトウェイトシェアリング 0.69
In International Conference on Learning Representations, 2017. 院 2017年、国際学習表象会議に参加。 0.60
[38] T. Wang, L. Yuan, X. Zhang, and J. Feng. [38] T. Wang, L. Yuan, X. Zhang, J. Feng. 0.97
Distilling object detectors with fine-grained feature 微細粒度を有する蒸留物体検出器 0.67
imitation. In Conference on Computer Vision and Pattern Recognition, 2019. 模倣だ 2019年、コンピュータビジョンとパターン認識に関する会議。 0.60
[39] Z. Yang, S. Liu, H. Hu, L. Wang, and S. Lin. [39] Z. Yang, S. Liu, H. Hu, L. Wang, S. Lin 0.93
Reppoints: Point set representation for object Reppoints: オブジェクトのポイントセット表現 0.77
detection. In International Conference on Computer Vision, 2019. 検出 2019年、国際コンピュータビジョン会議に参加。 0.62
[40] J. Yim, D. Joo, J. Bae, and J. Kim. [40]J.Yim、D.Joo、J.Bae、J.Kim。 0.82
A gift from knowledge distillation: Fast optimization, network minimization and transfer learning. a gift from knowledge distillation: fast optimization, network minimization and transfer learning。 0.81
In Conference on Computer Vision and Pattern Recognition, 2017. 2017年、コンピュータビジョンとパターン認識に関する会議。 0.79
11 11 0.85
英語(論文から抽出)日本語訳スコア
[41] S. Zagoruyko and N. Komodakis. 41] S. Zagoruyko と N. Komodakis 0.78
Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. 注意にもっと注意を払う: 注意伝達による畳み込みニューラルネットワークの性能向上。 0.71
In International Conference on Learning Representations, 2017. 2017年、国際学習表現会議に参加。 0.78
[42] L. Zhang and K. Ma. [42] L. Zhang と K. Ma 0.90
Improve object detection with feature-based knowledge distillation: 特徴量に基づく知識蒸留による物体検出の改善 0.69
Towards accurate and efficient detectors. 高精度かつ効率的な検出器を目指す。 0.49
2021. [43] R. Zhao, Y. Hu, J. Dotzel, C. De Sa, and Z. Zhang. 2021. [43]R.Zhao、Y. Hu、J.Dotzel、C.De Sa、Z.Zhang。 0.81
Improving neural network quantization without retraining using outlier channel splitting. 異常チャネル分割を用いた再トレーニングを伴わないニューラルネットワーク量子化の改善 0.63
In International Conference on Machine Learning, 2019. 2019年、国際機械学習会議に参加。 0.79
Appendix A Training Classification Teachers 付録 教員養成という,教員の養成 0.39
In this section, we provide the details of our experimental classification setup and of training classification teachers. 本稿では,実験的な分類設定の詳細と教員の養成について述べる。 0.64
Experimental setup. To train and validate our classification teachers, we use the MS COCO2017 [24] detection dataset and crop all the objects according to their ground-truth bounding boxes. 実験装置。 分類教師を訓練し、検証するために、MS COCO2017[24]検出データセットを使用して、すべてのオブジェクトを地道境界ボックスに従って収穫する。 0.70
The resulting classification dataset consists of 849,902 objects for training and 36,334 objects for validation. その結果得られた分類データセットは、トレーニング用の849,902オブジェクトと、検証用の36,334オブジェクトで構成されている。 0.52
We then train the teacher models in an image-classification manner, using the same data augmentation strategy and loss function as the student detector. 次に,学生検出器と同じデータ拡張戦略と損失関数を用いて,教師モデルを画像分類方式で訓練する。 0.84
Specifically, Faster RCNNs and RetinaNets share the same data augmentation methods, denoted as “general”, but use the categorical cross-entropy loss (CEL) and focal loss (FL) for their classification heads, respectively; SSDs have their own data augmentation strategy and use the categorical cross-entropy loss (CEL). 具体的には、より高速なRCNNとRetinaNetは同じデータ拡張方法を共有しており、それぞれカテゴリ横断エントロピー損失(CEL)と焦点損失(FL)を分類ヘッドに使用し、SSDは独自のデータ拡張戦略を持ち、カテゴリ横断エントロピー損失(CEL)を使用する。 0.71
In our experiments, we take ResNet50 as the teacher model. 実験では、ResNet50を教師モデルとしています。 0.77
In Section 4.3, we conduct an ablation study with different teachers. 第4.3節では、異なる教師によるアブレーション研究を行っている。 0.55
Furthermore, we investigate the influence of different input sizes to our classification teachers because the objects in object detection have different resolutions than they typically have in image classification. さらに,物体検出における物体の解像度がイメージ分類と異なるため,入力サイズの違いが教師の分類に与える影響について検討した。 0.87
Therefore, we train the classification teacher with input sizes in [56 × 56, 112 × 112, 224 × 224]. そこで我々は, [56 × 56, 112 × 112, 224 × 224] の入力サイズで分類教師を訓練する。 0.84
Because Faster RCNNs and RetinaNets share the same data augmentation, we train a teacher for both frameworks using the two losses jointly. Faster RCNNとRetinaNetは同じデータ拡張を共有しているので、この2つの損失を併用して、両方のフレームワークで教師を訓練します。
訳抜け防止モード: 高速RCNNとRetinaNetは同じデータ拡張を共有しているからです。 両フレームワークの教師を 共同で訓練します。
0.73
All the teacher models are trained using ImageNet-pretrained weights for 90 epochs with an initial learning rate of 0.0001, divided by 10 at epoch 50. すべての教師モデルは、90 epochsで ImageNet-pretrained weights を用いて訓練され、最初の学習率は0.0001で、epoch 50 で 10 で分割される。 0.72
Results. In Table A1, we report the top-1 accuracy of our ResNet50 classification teacher on the COCO2017 classification validation dataset. 結果。 表A1では、COCO2017分類検証データセット上でResNet50分類教師のトップ1の精度を報告する。 0.67
The teacher models trained with the categorical cross-entropy loss benefit from larger input sizes, as shown by the top-1 accuracy increasing by more than 4 points when the input size increases from 56 to 224. 教師モデルは、入力サイズが56から224に増加すると、トップ1の精度が4ポイント以上増加するように、より大きな入力サイズからカテゴリ横断エントロピー損失の利点を訓練した。 0.80
Surprisingly, with the focal loss, increasing the input size to 224 yields slightly worse results than with an input of size 112. 驚くべきことに、焦点損失により、入力サイズを224に増やすことで、入力サイズ112よりもわずかに悪い結果が得られる。 0.68
Note that the teacher trained with the focal loss underperforms those trained with categorical cross-entropy loss by more than 3 points. 焦点損失を訓練した教師は、カテゴリー的クロスエントロピー損失を3ポイント以上減らした教師を過小評価している。 0.71
Furthermore, training the classification teacher with both losses always yields better top-1 accuracy than training with a single loss. さらに、両方の損失を持つ分類教師の訓練は、常に1つの損失を持つ訓練よりもtop-1の精度が良い。 0.62
To this end, we will use the same classification teacher for all two-stage Faster RCNNs and one-stage RetinaNets in our classifier-to-detector distillation method. この目的のために,我々は,2段階の高速RCNNと1段階のRetinaNetに同じ分類の教師を用いる。 0.61
We consider this to be an advantage of our method, since it lets us use the same teacher for multiple detectors. 複数の検知器に同じ教師を使うことができるので、これは私たちの方法の利点だと考えています。 0.72
Table A1: Top-1 accuracy of classification teacher ResNet50 on the COCO2017 classification validation dataset. 表 a1: top-1 accuracy of classification teacher resnet50 on the coco2017 classification validation dataset 0.84
SSD + CEL general + CEL general + FL general + CEL + FL SSD + CEL general + CEL general + FL general + CEL + FL 0.85
Input resolution 112 × 112 入力解像度112×112 0.80
224 × 224 Data Aug. + Loss 224 × 224 Data Aug. + Loss 0.92
56 × 56 76.26 76.92 72.86 77.01 56 × 56 76.26 76.92 72.86 77.01 0.59
80.30 80.81 77.50 81.02 80.30 80.81 77.50 81.02 0.45
80.41 81.42 77.04 81.67 80.41 81.42 77.04 81.67 0.45
B Training Setting for Compact Students 小型学生のためのB研修環境 0.66
Let us now specify the details for the training settings of the compact student models used in 4.1, as mentioned in the main paper. 4.1で使用されるコンパクトな学生モデルのトレーニング設定の詳細を、メインペーパーで述べたように指定しましょう。 0.81
All experiments in this work are performed on Tesla V100 GPUs. この研究のすべての実験は、tesla v100 gpuで行われている。 0.65
SSD300 and SSD512. SSD300とSSD512。 0.78
For data augmentation, we first apply photometric distortion transformations on the input image, then scale up the image by a factor chosen randomly between 1× and 4× by データ拡張のために、まず入力画像に測光歪変換を適用し、次に1×4×のランダムに選択された係数で画像をスケールアップする。
訳抜け防止モード: データ拡張のために、まず入力画像に光度歪み変換を適用する。 1×1でランダムに選択した因子で画像をスケールアップする 4×
0.81
12 12 0.85
英語(論文から抽出)日本語訳スコア
filling the blanks with the mean values of the dataset. 空白をデータセットの平均値で満たします。 0.62
We then sample a patch from the image so that the minimum IoU with the objects is in [0.1, 0.3, 0.5, 0.7, 0.9], with the precise value chosen randomly. 次に、画像からパッチをサンプリングし、オブジェクトを持つ最小IoUが[0.1, 0.3, 0.5, 0.7, 0.9]にランダムに選択されるようにした。 0.75
Afterwards, the sampled patch is resized to 300 × 300 or 512 × 512, normalized by subtracting the mean values of the dataset, and horizontally flipped with a probability of 0.5. その後、サンプルパッチは300×300または512×512にリサイズされ、データセットの平均値を減じて正規化され、0.5の確率で水平反転する。 0.73
We use SGD with an initial learning rate of 0.002 to train the SSDs for 24 epochs, where the dataset is repeated 5 times. 初回学習率0.002のSGDを用いて,データセットを5回繰り返した24時間でSSDをトレーニングする。 0.64
The batch size is 64, and the learning rate decays by a factor of 0.1 at the 16th and 22nd epoch. バッチサイズは64で、学習速度は16期と22期で0.1倍減少する。 0.52
Faster RCNN with lightweight backbones. 軽量バックボーンを備えた高速RCNN。 0.70
For data augmentation, the input image is first resized so that either the maximum of the longer side is 1333 pixels, or the maximum of the shorter side is 800 pixels. データ拡張については、まず、長辺の最大値が1333画素、短辺の最大値が800画素となるように、入力画像を再サイズする。 0.61
Then, the image is horizontally flipped with a probability of 0.5. そして、画像を0.5の確率で水平反転させる。 0.78
Afterwards, it is normalized by subtracting the mean values and dividing by the standard deviation of the dataset. その後、平均値を減らし、データセットの標準偏差によって分割することで正規化される。 0.75
The Faster RCNN-MobileNetV2 is trained by SGD for 12 epochs with a batch size of 16, and an initial learning rate set to 0.02 and divided by 10 at the 8th and 11th epoch. Faster RCNN-MobileNetV2はSGDによって16のバッチサイズで12エポックで訓練され、初期学習率は0.02に設定され、8エポックと11エポックで10に分割される。 0.67
Faster RCNN-QR50 is trained with a larger batch size of 32 and a larger initial learning rate of 0.04. より高速なRCNN-QR50は32のバッチサイズで訓練され、初期学習率は0.04である。 0.66
Note that, in practice, increasing the batch size and the learning rate enables us to shorten the training time while keeping the same performance as with the default 1× training setting in MMDetetion. 実際には、バッチサイズと学習率の増大により、MMDetetionのデフォルトの1倍のトレーニング設定と同じパフォーマンスを維持しながら、トレーニング時間を短縮することができます。 0.69
C Analysis of Detection Errors As mentioned in Section 4.4 of the main paper, we provide the 6 types of detection errors discussed by Bolya et al [3], namely, classification (cls) error, localization (loc) error, both cls and loc error, duplicate detection error, background error, missed ground-truth error (missedGTerror). 検出誤差のC解析 本論文の4.4節で述べたように、Bolya氏らによって議論された6種類の検出エラー、すなわち、分類(cls)エラー、ローカライゼーション(loc)エラー、clsとlocエラー、重複検出エラー、バックグラウンドエラー、Last-Truthエラー(missedGTerror)を提供する。 0.73
In essence, as shown by Figure A1, localization error increases significantly as the foreground IoU increases, while all other errors decrease. 本質的には、図A1に示すように、前景のIoUの増加とともに局所化誤差が大幅に増加し、他のすべてのエラーは減少する。 0.62
The classification-related errors typically drop by using our classification distillation strategy. 分類関連エラーは通常, 分類蒸留戦略を用いて減少する。 0.76
See, for example, the classification error for IoUs smaller than 0.65, and the error of both cls and loc for all IoUs. 例えば、IoU の分類誤差は 0.65 より小さく、全ての IoU の cl と loc の両方の誤差がある。 0.74
By contrast, our localization distillation decreases the localization-related errors, including localization error and duplicate detection errors. 一方, ローカライズ蒸留は, ローカライズエラーや重複検出エラーなど, ローカライズ関連エラーを減少させる。 0.69
Specifically, with localization distillation, the localization error drops by more than 2 mAP points for IoUs larger than 0.7, albeit with a marginal increase in missedGTerror and background error. 具体的には, ローカライゼーション蒸留では0.7以上のIoUに対して2mAP以上で局在誤差が減少するが, 損失GTerrorとバックグラウンドエラーの差は小さい。 0.77
Overall, while there is a tradeoff between our classification and localization distillation strategies, they play complementary roles in improving the performance of the student detector. 総じて,我々の分類とローカライズ蒸留戦略にはトレードオフがあるが,学生検知器の性能向上に相補的な役割を担っている。 0.84
13 13 0.85
英語(論文から抽出)日本語訳スコア
Figure A1: Detection errors (better viewed in color). 図 a1: 検出エラー(色に見える)。 0.72
We show 6 types of detection errors for the baseline SSD300, and with our classification and localization distillation methods. ベースラインSSD300に対する検出誤差は6種類あり, 分類法とローカライゼーション蒸留法を用いて検討した。 0.74
Note that we scaled the plots according to the magnitude of the errors they represent; the localization error, classification error and missedGTerror are the main sources of errors. 対象とするエラーの大きさに応じてプロットをスケールし、ローカライゼーションエラー、分類エラー、ミスセットエラーが主なエラー発生源である点に注意が必要だ。
訳抜け防止モード: 注意:我々はプロットを、それらが表す誤差の大きさに応じてスケールした。 ローカライゼーションエラー、分類エラー、ミスGTerrorが主なエラー源である。
0.77
14 14 0.85
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。