論文の概要、ライセンス

# (参考訳) detreg: オブジェクト検出のための領域優先型教師なし事前トレーニング [全文訳有]

DETReg: Unsupervised Pretraining with Region Priors for Object Detection ( http://arxiv.org/abs/2106.04550v1 )

ライセンス: CC BY 4.0
Amir Bar, Xin Wang, Vadim Kantorov, Colorado J Reed, Roei Herzig, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson(参考訳) 教師なし事前訓練は、オブジェクト検出を含むコンピュータビジョンタスクに有用であることが最近証明された。 しかし、従来の自己教師型アプローチは、検出の重要な側面であるオブジェクトのローカライズを扱うように設計されていない。 ここでは、領域事前を用いたTRansformersを用いたオブジェクト検出のための教師なし事前学習手法であるDETRegを提案する。 局所化と分類という2つの課題に動機づけられ、自己スーパービジョンのための2つの補完的信号を組み合わせた。 対象のローカライズ信号には、既成の非教師なし領域提案法であるseudo ground truth object bounding boxを用いて、トレーニングデータを必要としない、高いリコールレートで極端に精度の低いオブジェクトを検出可能な選択的探索を行う。 分類信号は、不変オブジェクト表現を促進するオブジェクト埋め込み損失から来ており、そこからオブジェクトカテゴリを推測することができる。 この2つの信号を組み合わせて、大量のラベルのないデータからDeformable DETR検出アーキテクチャをトレーニングする方法を示す。 DETRegは、MS COCOやPASCAL VOCのような標準ベンチマークにおける、競合するベースラインと以前の自己監督手法よりもパフォーマンスを向上する。 DETRegはまた、MS COCO上のラベル付きデータのわずか1%、2%、5%、10%でトレーニングされた場合、従来の教師なしベースラインアプローチよりも優れていた。 コードと事前訓練されたモデルについては、https://amirbar.net/ detregのプロジェクトページを参照してください。

Unsupervised pretraining has recently proven beneficial for computer vision tasks, including object detection. However, previous self-supervised approaches are not designed to handle a key aspect of detection: localizing objects. Here, we present DETReg, an unsupervised pretraining approach for object DEtection with TRansformers using Region priors. Motivated by the two tasks underlying object detection: localization and categorization, we combine two complementary signals for self-supervision. For an object localization signal, we use pseudo ground truth object bounding boxes from an off-the-shelf unsupervised region proposal method, Selective Search, which does not require training data and can detect objects at a high recall rate and very low precision. The categorization signal comes from an object embedding loss that encourages invariant object representations, from which the object category can be inferred. We show how to combine these two signals to train the Deformable DETR detection architecture from large amounts of unlabeled data. DETReg improves the performance over competitive baselines and previous self-supervised methods on standard benchmarks like MS COCO and PASCAL VOC. DETReg also outperforms previous supervised and unsupervised baseline approaches on low-data regime when trained with only 1%, 2%, 5%, and 10% of the labeled data on MS COCO. For code and pretrained models, visit the project page at https://amirbar.net/ detreg
公開日: Tue, 8 Jun 2021 17:39:14 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] V C . 8 ] 略称はC。 0.73
s c [ 1 v 0 5 5 4 0 sc [ 1 v 0 5 5 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
DETReg: Unsupervised Pretraining with DETReg: 教師なし事前トレーニング 0.81
Region Priors for Object Detection オブジェクト検出のための領域優先 0.78
Amir Bar1, Xin Wang2, Vadim Kantorov1, Colorado J Reed2, Roei Herzig1, Amir Bar1, Xin Wang2, Vadim Kantorov1, Colorado J Reed2, Roei Herzig1 0.94
Gal Chechik3,4, Anna Rohrbach2, Trevor Darrell2, Amir Globerson1 Gal Chechik3,4,Anna Rohrbach2,Trevor Darrell2,Amir Globerson1 0.72
1 Tel-Aviv University 2 Berkeley AI Research テルアビブ大学1校 バークレーAI研究2 0.59
amir.bar@cs.tau.ac.i l amir.bar@cs.tau.ac.i l 0.39
3 NVIDIA 4 Bar-Ilan University NVIDIA 4 Bar-Ilan大学3校 0.72
Abstract Self-supervised pretraining has recently proven beneficial for computer vision tasks, including object detection. 概要 自己教師付き事前訓練は、オブジェクト検出を含むコンピュータビジョンタスクに有用であることが最近証明された。 0.46
However, previous self-supervised approaches are not designed to handle a key aspect of detection: localizing objects. しかし、従来の自己教師型アプローチは、検出の重要な側面であるオブジェクトのローカライズを扱うように設計されていない。
訳抜け防止モード: しかし、従来の自己管理アプローチは設計されていない。 検出の重要な側面である 物体のローカライズ
0.63
Here, we present DETReg, an unsupervised pretraining approach for object DEtection with TRansformers using Region priors. ここでは、領域事前を用いたTRansformersを用いたオブジェクト検出のための教師なし事前学習手法であるDETRegを提案する。 0.52
Motivated by the two tasks underlying object detection: localization and categorization, we combine two complementary signals for self-supervision. 局所化と分類という2つの課題に動機づけられ、自己スーパービジョンのための2つの補完的信号を組み合わせた。
訳抜け防止モード: 物体検出の基礎となる2つの課題 : 局所化と分類 我々は2つの補完的な信号を組み合わせる。
0.70
For an object localization signal, we use pseudo ground truth object bounding boxes from an off-the-shelf unsupervised region proposal method, Selective Search, which does not require training and can detect objects at a high recall rate and very low precision. 対象のローカライズ信号には、既成の非教師なし領域提案法であるseudo ground truth object bounding boxを用いて、トレーニング不要で高いリコールレートで極めて精度の低いオブジェクトを検出できる選択的探索を行う。 0.75
The categorization signal comes from an object embedding loss that encourages invariant object representations, from which the object category can be inferred. 分類信号は、不変オブジェクト表現を促進するオブジェクト埋め込み損失から来ており、そこからオブジェクトカテゴリを推測することができる。 0.83
We show how to combine these two signals to train the Deformable DETR detection architecture from large amounts of unlabeled data. この2つの信号を組み合わせて、大量のラベルのないデータからDeformable DETR検出アーキテクチャをトレーニングする方法を示す。 0.77
DETReg improves the performance over competitive baselines and previous self-supervised methods on standard benchmarks like MS COCO and PASCAL VOC. DETRegは、MS COCOやPASCAL VOCのような標準ベンチマークにおける、競合するベースラインと以前の自己監督手法よりもパフォーマンスを向上する。 0.53
DETReg also outperforms previous supervised and unsupervised baseline approaches for a low-data regime when trained with only 1%, 2%, 5%, and 10% of the labeled data on MS COCO. DETRegはまた、MS COCO上のラベル付きデータのわずか1%、2%、5%、10%でトレーニングされた場合、従来の教師なしのベースラインアプローチよりも優れている。 0.62
For code and pretrained models, visit the project page https://amirbar.net/ detreg. コードと事前訓練済みのモデルについては、プロジェクトページ https://amirbar.net/ detreg.com を参照してください。 0.45
1 Introduction Object detection is a key task in machine vision, and involves both localizing objects in an image and classifying them into categories. 1 はじめに オブジェクト検出は、マシンビジョンにおける重要なタスクであり、画像内のオブジェクトをローカライズし、それらをカテゴリに分類する。 0.73
Achieving high detection accuracy typically requires training the models with large datasets. 高い検出精度を達成するには、通常、大きなデータセットでモデルをトレーニングする必要があります。 0.50
However, such datasets are expensive to collect since they require manual annotation of multiple bounding boxes per image, while unlabeled images are easy to collect and require no manual annotation. しかし、そのようなデータセットは、画像ごとに複数のバウンディングボックスのマニュアルアノテーションを必要とするのに対して、ラベルのない画像は簡単に収集でき、手動のアノテーションを必要としないため、収集する費用がかかる。 0.55
Recently, there has been a growing interest in learning self-supervised representations, which substantially reduce the need for labeled data [24, 6, 23, 9]. 近年,ラベル付きデータ [24, 6, 23, 9] の必要性を大幅に低減する自己指導型表現の学習への関心が高まっている。 0.76
These self-supervised representations are learned in a pretraining stage on large-scale datasets like ImageNet [13], and they have led to increased performance for a range of perception tasks [8] including object detection — even outperformed a supervised pretraining counterparts. これらの自己教師付き表現は、ImageNet[13]のような大規模データセットの事前トレーニング段階で学習され、オブジェクト検出を含むさまざまな知覚タスク [8] のパフォーマンスが向上しました。 0.65
Despite this recent progress, we argue that current approaches are limited in their ability to learn good representations for object detection, as they do not focus on learning to detect objects. 最近の進歩にもかかわらず、オブジェクト検出の学習に重点を置いていないため、オブジェクト検出の優れた表現を学習する能力において、現在のアプローチは限られていると論じる。 0.75
Most past works (e g , MoCo [24] and SwAV [6]) focus on learning only part of the detection architecture, which is usually a subnetwork of the detector (e g , a convolutional network like ResNet [26]). 過去の作品(moco [24] や swav [6] など)のほとんどは検出アーキテクチャの一部のみを学習することに焦点を当てており、これは通常検出器のサブネットワークである(例: resnet [26]のような畳み込みネットワーク)。 0.80
Learning a backbone on its own is not enough for a detection model to succeed. 単独でバックボーンを学ぶだけでは、検出モデルが成功するには不十分です。 0.74
While the recent UP-DETR [12] work trains a full detection architecture, it learns to detect random patches in an image and is therefore not geared towards detection of actual objects. 最近のup-detr [12]ワークは完全な検出アーキテクチャをトレーニングするが、画像内のランダムなパッチを検出することを学び、実際のオブジェクトの検出に向かない。 0.74
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
(a) Def. DETR [59] w/ SwAV [6] Figure 1: Prediction examples of unsupervised pretraining approaches. (a)デフ。 DETR [59] w/ SwAV [6] 図1: 教師なし事前トレーニングアプローチの予測例。 0.70
Recent methods, shown in (a) and (b), do not learn “objectness” during the pretraining stage. a) および (b) に示される最近の手法は、事前訓練段階で「対象性」を学習しない。 0.73
In contrast, our method DETReg (c) learns to localize objects more accurately in its pretraining. 対照的に、DETReg (c) は事前学習においてより正確に対象をローカライズすることを学ぶ。 0.60
The included prediction examples were obtained after pretraining and before finetuning with annotated data. 入力された予測例は,事前学習後および注釈付きデータによる微調整前に得られた。 0.58
(c) DETReg (Ours) (c)DeTReg(Ours) 0.80
(b) UP-DETR [12] (b)UP-DETR[12] 0.88
Our approach to the problem is different and is based on the observation that learning good detectors requires learning to detect objects in the pretraining stage. この問題に対する我々のアプローチは異なっており、優れた検出器の学習には事前学習段階における物体検出の学習が必要であるという観察に基づいている。 0.67
To accomplish this, we present a new framework called “DEtection with TRansformers based on Region priors”, or DETReg. これを実現するために,我々は「領域優先に基づくトランスフォーマーによる検出」(detreg)と呼ばれる新しいフレームワークを提案する。
訳抜け防止モード: これを達成するために 本稿では,“領域優先性に基づくトランスフォーマティブの検出”,あるいはdetregと呼ばれる新しいフレームワークを提案する。
0.68
DETReg can be used to train a detector on unlabeled data by introducing two key pretraining tasks: “Object Localization Task” and the “Object Embedding Task”. DETRegは、“Object Localization Task”と“Object Embedding Task”という2つの主要な事前トレーニングタスクを導入することで、ラベルのないデータに対するディテクタのトレーニングに使用することができる。
訳抜け防止モード: DETReg が使える ラベルなしのデータで検出器を訓練する Object Localization Task ” と “Object Embedding Task ” の2つの主要な事前トレーニングタスクを導入する。
0.84
The goal of the first is to train the model to localize objects, regardless of their categories. 最初の目標は、カテゴリに関係なく、オブジェクトをローカライズするようにモデルをトレーニングすることだ。 0.75
However, learning to localize objects is not enough, and detectors must also classify objects. しかし、物体をローカライズする学習は不十分であり、検出器は物体を分類する必要がある。 0.64
Towards this end, we introduce the “Object Embedding Task”, which is geared towards understanding the categories of objects in the image. この目的のために,画像内のオブジェクトのカテゴリを理解することを目的とした“Object Embedding Task”を導入する。 0.81
Inspired by the simplicity of recent transformers for object detection [4, 59], we choose to base our approach on the Deformable DETR [59] architecture, which simplifies the implementation and is fast to train. 最近のオブジェクト検出用トランスフォーマー [4, 59] の単純さに触発されて、我々はこのアプローチを変形可能な detr [59] アーキテクチャに基礎を置くことを選びました。
訳抜け防止モード: 物体検出のための最近の変圧器の簡易性に触発された[4, 59] 私たちはDeformable DETR [ 59 ]アーキテクチャに基づくアプローチを選択します。 これは実装を単純化し、.NETのトレーニングを高速にする。
0.70
But how can we learn to localize objects from unlabeled data? しかし、ラベルのないデータからオブジェクトをローカライズする方法は? 0.70
Luckily, the machine vision community has worked extensively on the problem of region proposals, and there are effective methods like Selective Search [47] to produce category-agnostic region proposals at a high recall, off-the-shelf, and without the need for training. 幸いなことに、マシンビジョンコミュニティは、地域提案の問題に幅広く取り組んでおり、Selective Search[47]のような、高いリコール、オフザシェルフ、トレーニングの必要なく、カテゴリに依存しない地域提案を生成する効果的な方法があります。 0.63
The key idea in Selective Search is that objects exhibit certain structural properties (continuity, hierarchy, edges), and fairly simple programmatic (i.e., not trained) procedures can leverage these cues to extract object proposals. 選択的探索における重要なアイデアは、オブジェクトが特定の構造的特性(連続性、階層性、エッジ)を示し、比較的単純なプログラム的手順(訓練されていない)がこれらの手がかりを利用してオブジェクトの提案を抽出することである。 0.63
As we show here, these classic algorithms can be effectively used for unsupervised learning of detectors. ここで示すように、これらの古典的アルゴリズムは検出器の教師なし学習に効果的に利用できる。 0.63
Similarly, our “Object Embedding Task” is based on the recent success of self-supervised methods in learning visual representations from unlabeled data [6, 8, 10]. 同様に、私たちの“Object Embedding Task”は、ラベルのないデータ [6, 8, 10] から視覚表現を学習する自己教師型手法の成功に基づいている。 0.78
In these works, the key idea is to encourage learning of visual representations that are not sensitive to transformations that preserve object categories, such as translation or mild cropping. これらの作品において鍵となるアイデアは、翻訳や軽度の切り抜きなど、オブジェクトのカテゴリを保存する変換に敏感でない視覚的表現の学習を促進することである。 0.69
We use one such method, SwAV [6], to obtain the embeddings of potential objects, and use them to supervise our DETReg object embeddings during pretraining. このようなメソッドであるswav [6]を使って潜在的なオブジェクトの埋め込みを取得し、それらをプリトレーニング中にdetregオブジェクトの埋め込みを監督するために使用します。 0.55
We train DETReg on the above two tasks without using any manually annotated bounding boxes or categories. 手動で注釈付きバウンディングボックスやカテゴリを使わずに、上記の2つのタスクでDETRegをトレーニングします。 0.55
A key advantage of this approach is that it trains all DETR model parameters, and thus learns to produce meaningful detections even with no supervision — see Figure 1. このアプローチの重要な利点は、すべてのdetrモデルパラメータをトレーニングし、監督なしでも有意義な検出を行うように学習することです。
訳抜け防止モード: このアプローチの重要な利点は、すべてのDETRモデルのパラメータをトレーニングすることです。 監督なしでも 意味のある検出を 生み出すことができるのです 図1参照。
0.65
We conduct an extensive evaluation of DETReg on standard benchmarks: MS COCO [35] and PASCAL VOC [16] under various settings, including “low-data” training regimes. 我々は,MS COCO[35] とPASCAL VOC[16] の3つの標準ベンチマークにおいて,低データトレーニング体制を含む様々な条件下でDETRegを広範囲に評価する。 0.70
We find that DETReg improves on challenging baselines across the board, and especially when small amounts of annotated data are available. DETRegは、ボード全体の挑戦的ベースライン、特に少量の注釈付きデータが利用可能であれば改善する。 0.60
For example, DETReg improves over the supervised pretrained Deformable DETR by 4 points in AP on PASCAL VOC and by 1.6 points on MS COCO. 例えば、DeTRegは、PASCAL VOCではAPで4ポイント、MS COCOでは1.6ポイント改善されている。 0.54
When using only 1% of the data, it improves over the supervised counterpart by over 11 points in AP. データの1%しか使用しない場合、監督対象よりもAPで11ポイント以上改善される。 0.64
Additionally, it improves on the Deformable DETR initialized with SwAV by 2.5 points in AP on PASCAL VOC, and by 0.3 on MS COCO. さらに、SwaVで初期化されたDeformable DETRをPASCAL VOCで2.5ポイント、MS COCOで0.3ポイント改善する。 0.66
We also find it improves by 5.7 and 5.8 points on AP when using only 1% and 2% of annotated data on MS COCO. また、MS COCOのアノテートデータの1%と2%しか使用していない場合、APでは5.7と5.8ポイント改善されている。 0.62
Taken together, these results suggest that DETReg is a highly effective approach to pretraining object detector models. これらの結果から,detregは物体検出モデルの事前学習に非常に効果的な手法であることが示唆された。 0.57
2 Related Work Self-supervised pretraining. 2 関連作業 自己指導型事前訓練。 0.61
Recent work [8, 27, 24, 6, 10] has shown that self-supervised pretraining can generate powerful representations for transfer learning, even outperforming its supervised counterparts on challenging vision benchmarks [52, 8]. 近年の[8, 27, 24, 6, 10]では, 自己指導型事前訓練が, 伝達学習の強力な表現を生成できることが示されている。 0.46
Self-supervised learning often involves 自己指導型学習はしばしば 0.70
2 2 0.85
英語(論文から抽出)日本語訳スコア
various image restoration (e g , inpainting [40], colorization [58], denoising [48]) and higher level prediction tasks like image orientation [19], context [14], temporal ordering [38], and cluster assignments [5]. 様々な画像復元(例えば、inpainting [40], colorization [58], denoising [48])と、画像配向 [19], context [14], temporal order [38], cluster assignments [5]のような高レベルな予測タスク。 0.76
The learned representations transfer well to image classification but the improvement is less significant for instance-level tasks, such as object detection and instance segmentation [24, 41]. 学習された表現は画像分類によく適合するが、オブジェクト検出やインスタンスセグメンテーション[24, 41]のようなインスタンスレベルのタスクでは改善は重要ではない。 0.77
More recently, a few works [43, 27, 53, 55] studied instance-level self-supervised representation learning. さらに最近では,[43, 27, 53, 55] がインスタンスレベルの自己教師付き表現学習を研究した。 0.71
Roh [43] et al propose a spatially consistent representation learning (SCRL) algorithm to produce coherent spatial representations of a randomly cropped local region according to geometric translations and zooming operations. Roh[43]らは、幾何学的変換とズーム操作に基づいてランダムに収穫された局所領域のコヒーレントな空間表現を生成するために、空間整合表現学習(SCRL)アルゴリズムを提案する。
訳抜け防止モード: Roh [43 ] et al proposed a spatially consistent representation learning (SCRL ) algorithm 幾何変換とズーム操作に応じて、ランダムに収穫された局所領域のコヒーレントな空間表現を生成する。
0.82
Concurrent works, DetCon [27], ReSim [53] and DetCo [55] adopt contrastive learning on image patches for region similarity learning. コンカレントワーク detcon [27], resim [53], detco [55] では,領域類似性学習のために画像パッチの対比学習を採用する。 0.79
DetCon uses mask priors to align patches from different views while ReSim applies two different transformations (e g , random cropping) to the image and constructs the positive alignments from the overlapping regions. DetConは、異なるビューからのパッチのアライメントにマスク先を使用し、ReSimはイメージに2つの異なる変換(例えば、ランダムなトリミング)を適用し、重複する領域から正のアライメントを構築する。 0.70
Our work is in line with these works on learning useful representations for object detection. 私たちの研究は、オブジェクト検出に有用な表現を学ぶためのこれらの研究と一致しています。 0.46
In contrast to DetCon, which requires object mask priors, our approach seeks to use the region proposals from the off-the-shelf tools and use them as weak supervision, rather than implicitly embedding them in the contrastive learning formulation for constructing positive/negative pairs. オブジェクトマスクの事前処理を必要とするDetConとは対照的に,当社のアプローチでは,正と負のペアを構築するための対照的な学習形式にそれらを暗黙的に埋め込むのではなく,既製のツールからの領域提案を使用して,弱い監視を行う。 0.61
Our intuition is that contrastive learning on image patches does not necessarily empower the model to learn what and where an object is, and adding the weak supervision signals from the region priors could be beneficial. 我々の直感では、画像パッチに対する対照的な学習は、必ずしもモデルにオブジェクトがどこにあるのかを学習する力を与えていない。
訳抜け防止モード: 私たちの直感は イメージパッチに関する対照的な学習は、必ずしもモデルにオブジェクトがどこにあるのかを学習させるわけではない。 地域の監視信号の 弱い追加は 有益だ
0.73
End-to-end object detection. エンドツーエンドのオブジェクト検出。 0.57
Detection with transformers (DETR) [4] builds the first fully endto-end object detector and eliminates the need for components such as anchor generation and non-maximum suppression (NMS) post-processing. トランスフォーマー(detr)[4]による検出は、最初のエンドツーエンドオブジェクト検出器を構築し、アンカー生成やnms(non-maximum suppression)後処理といったコンポーネントの必要性をなくす。 0.71
This model has quickly gained traction in the machine vision community. このモデルは、マシンビジョンコミュニティで急速に注目を集めている。 0.67
However, the original DETR suffers from slow convergence and limited sample efficiency. しかし、オリジナルのdetrは収束が遅く、サンプル効率が限られている。 0.62
Deformable DETR [59] introduces a deformable attention module to attend to a sparsely sampled small set of prominent key elements, and achieves better performance compared to DETR with reduced training epochs. 変形可能なDETR[59]は、わずかにサンプリングされた重要キー要素の小さなセットに対応する変形可能なアテンションモジュールを導入し、トレーニングエポックを低減したDETRよりも優れたパフォーマンスを実現する。 0.67
We use Deformable DETR as our base detection architecture given its improved training efficiency. Deformable DETRをトレーニング効率の向上からベース検出アーキテクチャとして使用しています。 0.75
Both DETR and Deformable DETR adopt the supervised pretrained backbone (i.e., ResNet [26]) on ImageNet. DETRとDeformable DETRはどちらも、ImageNet上で教師付き事前訓練されたバックボーン(ResNet [26])を採用する。 0.61
UP-DETR [12] pretrains DETR in a selfsupervised way by detecting and reconstructing the random patches from the input image. UP-DETR[12]は、入力画像からランダムパッチを検出して再構成することにより、DETRを自己指導的に事前訓練する。
訳抜け防止モード: UP - DETR [ 12 ] は自己監督的な方法で DETR を事前訓練する 入力画像からのランダムパッチの検出と再構築。
0.67
Our work shares the goal of UP-DETR of unsupervised pretraining for object detection, but our approach is very different. 私たちの研究は、オブジェクト検出のための教師なし事前トレーニングの目標を共有していますが、アプローチは大きく異なります。 0.54
In contrast to UP-DETR, we adopt region priors from off-the-shelf unsupervised region proposal algorithms to provide weak supervision for pretraining, which has an explicit notion of object compared to random image patches which do not. up-detrとは対照的に,市販の非教師なし領域提案アルゴリズムからの領域優先アルゴリズムを採用し,事前学習に対する弱い監督を提供する。 0.51
Region proposals. A rich study of region proposals methods [1, 44, 7, 15, 2, 60, 11, 32] exists in the object detection literature. 地域提案。 対象検出文献には,領域提案法(1,44,7,15,2,60,11,3 2]の豊富な研究が存在している。 0.73
Grouping based method, Selective Search [44], and window scoring based approach, Objectness [1] are two early and well known proposal methods, which has been widely adopted and supported in the major libraries (e g , OpenCV [3]). グループ化に基づく手法,選択検索 [44] およびウィンドウスコアリングに基づくアプローチ,Objectness [1] は,主要なライブラリ (例えば OpenCV [3]) で広く採用され,サポートされている2つの早期かつよく知られた提案手法である。 0.90
Selective search greedily merges superpixels to generate proposals. 選択検索は、スーパーピクセルをうまくマージして提案を生成する。 0.51
Objectness relies on visual cues such as multi-scale saliency, color contrast, edge density and superpixel straddling to identify likely regions. 客観性は、多スケールのサリエンシ、色コントラスト、エッジ密度、スーパーピクセルの階層化といった視覚的手がかりに依存している。
訳抜け防止モード: 客観性は多スケールサリエンシのような視覚的手がかりに依存する。 色コントラスト、エッジ密度、スーパーピクセルの重なり合い 地域を特定するためです
0.60
While the field has largely drifted to learning based approaches, one benefit of these classic region proposal approaches is that they do not have learned parameters, and thus can be a good source of “free” supervision. この分野は学習ベースのアプローチに大きく依存しているが、これらの古典的な領域の提案の利点の1つは、彼らが学習パラメータを持たず、したがって“自由な”監督のよい源になり得ることである。
訳抜け防止モード: この分野は、主に学習ベースのアプローチに流れ込んでいる。 古典的な地域提案の1つの利点は 彼らは学習したパラメータを持っておらず、したがって“自由な”監督のよい源になり得る。
0.69
Hosang et al [29, 28] provide a comprehensive analysis over the various region proposals methods and Selective Search is the among the top performing approaches with a high recall rate. Hosang et al [29, 28]は、さまざまな地域提案手法を網羅的に分析し、Selective Searchは、高いリコール率を持つトップパフォーマンスアプローチの1つである。 0.87
In this work, we seek weak supervision from the region proposals generated by Selective Search, which has been widely adopted and proven successful in the well-known detectors such as R-CNN [21] and Fast R-CNN [20]. 本研究では,R-CNN [21] やFast R-CNN [20] などのよく知られた検出器で広く採用され,成功した選択探索による地域提案から,弱い監督を求める。 0.89
Note however that our proposed approach is not limited to the Selective Search region priors, and can employ other region proposal methods. しかし,提案手法は選択探索領域に限らず,他の領域提案手法も適用可能であることに注意されたい。 0.85
3 Region Proposals via Selective Search 選択探索による3つの地域提案 0.72
Training a model for object detection requires learning to localize objects. オブジェクト検出のためのモデルをトレーニングするには、オブジェクトのローカライズを学ぶ必要がある。 0.60
To accomplish this, we rely on classical region proposal approaches. これを実現するために、我々は古典的な地域提案アプローチに頼る。 0.62
Specifically, we use the Selective Search algorithm [47]. 具体的には,選択探索アルゴリズム [47] を用いる。 0.88
The goal of Selective Search is to propose candidate regions in the image that contain objects. Selective Searchの目的は、オブジェクトを含む画像内の候補領域を提案することである。 0.83
These regions are obtained via an iterative process that hierarchically groups smaller regions based on their similarity and adjacency. これらの領域は、その類似性と隣接性に基づいてより小さな領域を階層的にグループ化する反復的プロセスによって得られる。 0.58
This algorithm is fully programmatic, it does not require training and is available “off-the-shelf” using the OpenCV python library [3]. このアルゴリズムは完全にプログラム化されており、トレーニングを必要とせず、OpenCV pythonライブラリ[3]を使って“既製の”ことができる。 0.68
Furthermore, it captures multiple attributes of objects and functions as an excellent prior for “objectness”. さらに、オブジェクトと関数の複数の属性を“オブジェクト”の優れた先行としてキャプチャする。 0.81
3 3 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: The DETReg pretext task and model. 図2: DETRegのプリテキストタスクとモデル。 0.63
We pretrain a Deformable DETR [59] based detector to predict region proposals and their corresponding object embeddings in the pretraining stage. 変形可能なdetr[59]ベースの検出器を事前学習し,領域の提案とそれに対応するオブジェクトの埋め込みを事前学習段階に予測する。
訳抜け防止モード: 変形可能なDETR[59]検出器の事前訓練 事前学習段階における領域の提案とそれに対応するオブジェクトの埋め込みを予測する。
0.67
Next, we briefly describe the Selective Search procedure, in order to highlight the type of information it captures. 次に,収集した情報の種類を明らかにするために,選択探索手順を簡潔に記述する。 0.82
Given an image, a graph-based segmentation algorithm [17] is used to propose initial image regions R = {r1, ..., rn}. 画像が与えられると、初期画像領域 r = {r1, ..., rn} を提案するグラフベースのセグメンテーションアルゴリズム [17] が使用される。 0.86
These regions are the result of an iterative grouping process of super-pixels, where adjacent elements are grouped based on their similarity across the boundary compared to their similarity with other neighboring components. これらの領域はスーパーピクセルの反復的なグループ化プロセスの結果であり、隣接する要素は他の隣接コンポーネントとの類似性と比較して境界を越えた類似性に基づいてグループ化される。 0.75
Let S be the set of pairwise region similarities of the neighboring regions, according to some similarity function s. In every iteration let ri, rj ∈ R be the two regions such that s(ri, rj) = max(S); these two regions are combined into a new region rt = ri ∪ rj, which is added to the set of regions R: R = R ∪ {rt}. 任意の反復で ri, rj ∈ R を s(ri, rj) = max(S) となるような2つの領域とし、これらの2つの領域は新しい領域 rt = ri > rj に結合され、R = R > {rt} となる。
訳抜け防止モード: s を隣接領域のペアワイズ領域の類似性の集合とする。 いくつかの類似性関数 s によれば、各イテレーションにおいて ri は ri である。 rj ∈ r は s(ri, rj ) = max(s ) となる2つの領域である。 これは、領域 r : r = r ] { rt } の集合に追加される。
0.69
The old similarities involving ri, rj are removed, and the new similarities w.r.t. ri, rj を含む古い類似性は取り除かれ、新しい類似性 w.r.t は取り除かれる。 0.64
rt and its neighbours are added. rtとその隣人が追加されます 0.73
When the set of similar regions is empty, the algorithm stops and returns the locations of the regions in R. The ranking of the output boxes is determined according to the order for which they were generated with a bit of randomness to make the result more diverse. 類似した領域の集合が空である場合、アルゴリズムはr内の領域の位置を停止して返却する。出力ボックスのランキングは、生成した順序に応じて多少のランダム性で決定され、結果がより多様になる。 0.72
To group regions correctly, the region similarity function s has to assign high scores to pairs of regions which are more likely to comprise objects and low scores to ones that do not. 領域を正しくグループ化するためには、領域類似度関数 s は、オブジェクトを構成する可能性が高い領域と、そうでない領域のペアに高いスコアを割り当てなければならない。 0.65
This requires some built-in “objectness” assumptions. これはいくつかの組み込みの“オブジェクト”仮定を必要とする。 0.48
It is defined by: s(ri, rj) = scolor(ri, rj) + stexture(ri, rj) + ssize(ri, rj) + sf ill(ri, rj), 以下で定義する。 s(ri, rj) = scolor(ri, rj) + stexture(ri, rj) + ssize(ri, rj) + sf ill(ri, rj) 0.71
(1) where scolor, stexture measure the similarity between the color histograms and the texture histograms using SIFT-like features, ssize is the fraction of the image that ri and rj jointly occupy, and sf ill scores how well the shapes of these two regions fit together (e.g, they fit if merging them is likely to fill holes and they do not fit if they are hardly touching each other). (1) 色のヒストグラムとテクスチャのヒストグラムの類似度をSIFTのような特徴を用いて測定する場合、サイズはriとrjが共同で占める画像の分画であり、sf illはこれらの2つの領域の形状がいかにうまく適合するかをスコアする(例えば、これらをマージすると穴を埋める可能性が高く、接触しにくい場合は適合しない)。 0.83
4 Selecting Bounding Box Proposals 4 Selecting Bounding Box Proposals 0.85
As mentioned in Section 3, the Selective Search algorithm attempts to sort the region proposals such that ones that are more likely to be objects appear first. 第3節で述べたように、選択探索アルゴリズムは、オブジェクトになりそうなものが最初に現れるように、領域の提案をソートしようとする。 0.75
However, the number of region proposals is large and the ranking is not precise. しかし、地域提案の件数は多く、正確な順位は定かではない。 0.67
Therefore, we need a mechanism to choose the best ones to be used as proposals during training (see Section 5 below). したがって、トレーニング中に提案として使用する最良のものを選択するメカニズムが必要です(下記の5節を参照)。 0.76
We consider the three following policies for selecting boxes: Top-k, Random-k, and Importance Sampling. ボックスの選択には,top-k,random-k, important samplingの3つのポリシーを検討する。 0.64
Top-K. We follow the object ranking determined by the Selective Search algorithm. top-k 選択探索アルゴリズムによって決定される対象のランキングに従う。 0.70
Specifically, regions that are grouped earlier are ranked as ones that are more likely to be objects. 具体的には、以前にグループ化された領域は、オブジェクトになりやすい領域としてランク付けされる。 0.52
We select the top K ones as input to DETReg (see Section 5). 上位の K を DETReg への入力として選択する(第5節参照)。 0.72
Random-K. We randomly select K candidates from the full list of proposals generated by Selective Search. ランダムk 選択検索によって生成された提案の完全なリストからランダムにk候補を選択する。 0.68
This yields lower quality candidates but encourages exploration. これは低い品質の候補を得るが、探索を奨励する。 0.49
Importance Sampling. In this approach, we aim to rely on the ranking of Selective Search, but also utilize lower ranked and more diverse proposals. 重要サンプリング。 提案手法では,選択探索のランク付けに頼らず,低ランク・多種多様な提案も活用することを目指している。 0.62
More formally, Let b1, . より正式には、b1, . 0.80
. . , bn be a set of n sorted region proposals, as calculated by the Selective Search algorithm, where the bi has rank i. . . bn は、選択的探索アルゴリズムによって計算された n 個のソートされた領域の提案の集合であり、bi はランク i を持つ。 0.80
Let Xi be a random variable indicating whether we include bi in the output proposals. Xi を出力提案に bi を含むかどうかを示すランダム変数とする。 0.78
Then we assign the sampling probability for Xi to be: 次に、xi のサンプリング確率を次のように割り当てる。 0.68
P r(Xi = 1) ∝ −log(i/n). P r(Xi = 1) > −log(i/n)。 0.89
To determine if a box should be included, we randomly sample from its respective distribution. ボックスを含めるべきかどうかを判断するために、各分布からランダムにサンプリングする。 0.75
4 ^^Input Image: xRegion ProposalsBipartite MatchingSwAVvb1b3b4b zfboxfemb1234b2^pfcatbzcDetector 4 ^^Input Image: xRegion ProposalsBipartite MatchingSwAVvb1b3b4b zfboxfemb1234b2^pfcatbzcDetector 0.64
英語(論文から抽出)日本語訳スコア
5 The DETReg Model for Unsupervised Pretraining with Region Priors 5 地域事前の教師なし事前訓練のためのDETRegモデル 0.77
Next, we turn to the key challenge this paper addresses: how to use unlabeled data for pretraining an end-to-end detection model. 次に,本論文の課題である,エンドツーエンド検出モデルの事前学習におけるラベルなしデータの使い方について述べる。 0.62
Our approach uses unlabeled data to generate a pretraining task, or pretext task, for DETR. 提案手法では,ラベル付きデータを用いて事前学習タスク(pretraining task)を生成する。
訳抜け防止モード: 我々のアプローチは ラベルのないデータを使って detr用プリトレーニングタスクまたはプリテキストタスクを生成する。
0.74
The principal idea is to design this task to be as close as possible to object detection, such that if our model succeeds on the pretext task, it is likely to transfer well to the object detection task. 主な考え方は、このタスクをオブジェクト検出にできるだけ近いように設計することであり、もし私たちのモデルがプリテキストタスクで成功すれば、オブジェクト検出タスクにうまく転送される可能性が高い。 0.80
Specifically, our goal is for the pretrained detector to understand both how to localize objects and how to learn a good embedding of the object. 具体的には、トレーニング済みの検出器がオブジェクトのローカライズ方法と、オブジェクトの適切な埋め込みを学ぶ方法の両方を理解することが目標です。 0.77
The overall approach is shown in Fig 2. 全体的なアプローチは図2に示されています。 0.65
We use Deformable-DETR [59] as the detection architecture, although other architectures can also be used. 検出アーキテクチャとしてdeformable-detr [59]を使用しますが、他のアーキテクチャも使用できます。 0.68
Recall that DETR detects up to N objects in an image, which is done by iteratively applying attention and feedforward layers over the N object query vectors of the decoder and over the input image features. DETRは画像中のN個のオブジェクトを検知し、デコーダのN個のオブジェクトクエリベクトルと入力画像の特徴に対して、注意とフィードフォワードの層を反復的に適用する。 0.79
The last layer of the decoder results in N image-dependent query embeddings that are used to predict bounding box coordinates and object categories. デコーダの最後のレイヤは、境界ボックス座標とオブジェクトカテゴリを予測するために使用されるN画像依存のクエリ埋め込みである。 0.75
Formally, consider an input image x ∈ RH×W×3. 形式的には、入力画像 x ∈ RH×W×3 を考える。 0.74
Then DETR uses x to calculate N image-dependent query embeddings v1, . 次に DETR は x を用いて N のイメージ依存クエリ埋め込み v1 を計算する。 0.65
. . , vN with vi ∈ Rd (this is done by passing the image through a backbone, followed by a transformer, and processing of the query vectors. . . vN with vi ∈ Rd (これは画像がバックボーンに渡され、次に変換器とクエリベクトルの処理によって行われる)。
訳抜け防止モード: . . ,vN を vi ∈ Rd で表す(これは によって行われる) イメージをバックボーンに渡し、次に変換器、クエリベクトルの処理を行う。
0.82
See [4] for details). 詳細は[4]を参照)。 0.79
Then two prediction heads are applied to the vi. そして、2つの予測ヘッドをviに印加する。 0.67
The first is fbox : Rd → R4, which predicts the bounding boxes. 1つは fbox : rd → r4 であり、境界ボックスを予測する。 0.78
The second is fcat : Rd → RL, which outputs a distribution over L object categories, including the background “no object” category. 2つ目は fcat : rd → rl であり、背景の "no object" カテゴリを含む l オブジェクトのカテゴリ上の分布を出力する。 0.84
During our unsupervised pretraining process, the fcat prediction head has only two outputs: object and background, since we do not use any category labels. 教師なし事前トレーニングプロセスの間、fcat予測ヘッドは、カテゴリラベルを使用しないので、オブジェクトとバックグラウンドの2つの出力しか持たない。 0.66
The two prediction heads are implemented via MLPs, and in the finetuning phase (i.e., when training on a labeled target dataset) we drop the last layer of fcat and replace it with a new fully-connected layer, setting the number of outputs according to the number of categories in the target dataset. 2つの予測ヘッドはMPPを用いて実装され、微調整フェーズ(すなわちラベル付きターゲットデータセットのトレーニング)では、fcatの最終レイヤをドロップして、新しい完全に接続されたレイヤに置き換え、ターゲットデータセットのカテゴリ数に応じて出力の数を設定します。 0.73
Recall that our goal is for the pretrained detector to both localize objects and to learn a good embedding of the object, which should ideally capture the visual features and category of the object. 私たちの目標は、オブジェクトのローカライズと、オブジェクトの視覚的特徴とカテゴリを理想的に捉えた、オブジェクトの適切な埋め込みを学ぶための、事前訓練されたディテクターです。 0.80
Accordingly, we devise two pretraining tasks, as follows. そのため、以下の2つの事前訓練タスクを考案する。 0.62
Object Localization Task To teach the model to detect objects, we ideally need to provide it with boxes that contain objects. オブジェクトのローカライゼーションタスク モデルにオブジェクトの検出を教えるためには、オブジェクトを含むボックスを提供することが理想的です。 0.86
Our key insight here is that this is precisely what Selective Search can do. 私たちの重要な洞察は、Selective Searchができることはまさにこれだということです。 0.67
Namely, Selective Search can take an image and produce a large set of region proposals at a high recall rate, e.g, some of the regions are likely to contain objects. すなわち、Selective Searchは画像を取得し、高いリコール率で大量の領域提案を生成することができる。
訳抜け防止モード: すなわち、Selective Searchは画像を取得し、高いリコールレートで大量の領域提案を生成することができる。 例えば、いくつかの領域は、オブジェクトを含む可能性が高い。
0.72
However, is has very low precision and it does not output category information (see [29, 28] for extensive evaluation of Selective Search and other region proposal methods). しかし、精度は非常に低く、カテゴリ情報を出力していない([29, 28]選択探索や他の地域提案手法の広範な評価については、[29, 28]参照)。 0.74
Thus, the “Object Localization” pretraining task takes a set of M boxes b1, . したがって “Object Localization” 事前トレーニングタスクは、M ボックス b1 のセットを取る。 0.79
. . , bM (where bi ∈ R4) output by Selective Search (see Section 4 on how to choose these boxes) and optimizes a loss that minimizes the difference between the DETR predictions (i.e., the outputs of the network fbox above) and these M boxes. . . bm(bi ∈ r4)は選択的探索によって出力され(これらのボックスを選択する方法のセクション4を参照)、detr予測(すなわち、上記のネットワークfボックスの出力)とこれらのmボックスの差を最小化する損失を最適化する。 0.84
As with DETR, the loss involves matching the predicted boxes and bi, as we explain later. DETRと同様に、損失は予測されたボックスとbiに一致する。
訳抜け防止モード: DETRと同様に、損失は伴う 予測ボックスとbiを 後述の通り一致させます
0.64
We note that it is clear that most of the Selective Search boxes will not contain actual objects. 選択された検索ボックスのほとんどが実際のオブジェクトを含まないことは明らかである。 0.81
However, since the content of non-object boxes tends to be more variable than for object boxes we expect that deep models can be trained to recognize objectness even when given objectness labels that are very noisy, as in Selective Search. しかし、オブジェクトボックス以外のコンテンツは、オブジェクトボックスよりも変数が多い傾向があるので、選択検索のように非常にノイズの多いオブジェクト性ラベルを与えられた場合でも、深層モデルはオブジェクト性を認識するように訓練できると期待しています。 0.68
Our empirical results support this intuition. 私たちの経験的な結果は、この直感を支持します。 0.32
In fact, we even show that after pretraining, DETReg outperforms Selective Search in object-agnostic detection, suggesting that DETReg managed to ignore wrong examples. 実際、事前学習後、DETRegはSelective Searchよりもオブジェクト非依存検出に優れており、DETRegは間違った例を無視できたことを示唆している。
訳抜け防止モード: 実際に、事前トレーニング後、DETRegはオブジェクトの選択的検索よりも優れています。 DETRegは間違った例を無視することができた。
0.62
Object Embedding Task Recall that in the standard supervised training scheme of DETR, the query embeddings vi are also used to classify the category of the object in the box via the prediction head fcat. オブジェクト埋め込みタスクは、detrの標準的な教師付きトレーニングスキームにおいて、クエリ埋め込みviは予測ヘッドfcatを介してボックス内のオブジェクトのカテゴリを分類するためにも使用される。 0.73
Thus we would like the vi embedding to capture information useful for category prediction. したがって、カテゴリ予測に有用な情報をキャプチャするためにvi埋め込みを希望する。 0.64
Towards this end, we leverage existing region descriptors that provide good representations for categorizing individual objects. この目的に向けて、我々は個々のオブジェクトを分類するための優れた表現を提供する既存の領域記述子を利用する。 0.54
Here we use SwAV [6], which obtains state-of-the-art unsupervised image representations. ここでは、最先端の教師なし画像表現を得るSwaV[6]を使用する。 0.51
For each box bi (of the M boxes output by Selective Search), we apply SwAV to the region in the image specified by bi. 各ボックスbi(選択検索によって出力されるMボックス)に対して、biで指定された画像の領域にSwAVを適用する。 0.73
Denote the corresponding SwAV descriptor by zi. 対応する SwAV ディスクリプタをzi で記述する。 0.77
Then we introduce a network femb : Rd → Rd that tries to predict zi from the DETR embedding for this box (namely vi), and we minimize the loss of this prediction. 次に、ネットワークフェム: Rd → Rd を導入し、このボックス(つまり vi)の DETR 埋め込みからzi を予測し、この予測の損失を最小限に抑える。 0.67
Again, the loss here involves matching the predicted boxes and bi as we explain below. ここでも、ここでの損失は、以下に説明するように、予測されたボックスとbiにマッチすることです。
訳抜け防止モード: 繰り返しますが、ここでの損失は 下記の通り 予測ボックスとbiを一致させます
0.61
Next, we describe how we train our model to optimize the above two tasks. 次に、上記の2つのタスクを最適化するためにモデルをトレーニングする方法を説明します。 0.60
Assume that Selective Search always returns M object proposals. Selective Searchが常にMオブジェクトの提案を返すと仮定する。 0.70
As explained above these are used to generate M bounding boxes b1, . 上述の通り、これらは M 個の有界箱 b1 を生成するために用いられる。 0.56
. . , bM and M SwAV descriptors v1, . . . , bM および M SwAV 記述子 v1, 。 0.86
. . , vM . Denote by yi = (bi, zi) the . . 、vM。 yi = (bi, zi) で表す 0.75
5 5 0.85
英語(論文から抽出)日本語訳スコア
tuple containing bi and zi, and denote these M tuples by y. bi と zi を含むタプルであり、これらの m タプルを y で表す。 0.62
Recall that our goal is to train the DETR model such that its N outputs are well aligned with y. Denote by v1, . 我々のゴールは、N の出力が y. Denote と y. Denote とよく一致するように DETR モデルをトレーニングすることである。
訳抜け防止モード: 私たちのゴールを思い出してください。 to train the DETR model that its N outputs are well aligned with y. Denote by v1,
0.81
. . , vK the image-dependent query embeddings calculated by DETR (i.e., the output of the last layer of the DETR decoder). . . つまり、DETRデコーダの最後のレイヤの出力である)によって計算された画像依存のクエリの埋め込みをvKにする。
訳抜け防止モード: . . イメージ-依存クエリの埋め込みは、DETRによって計算される(すなわち、)。 DETRデコーダの最後のレイヤの出力 )
0.83
Recall that we consider three prediction heads for DETR: fbox which outputs predicted bounding boxes, fcat which predicts if the box is object or background, and femb which tries to reconstruct the SwAV descriptor. DETRの予測ヘッドとして、予測境界ボックスを出力するfbox、そのボックスがオブジェクトかバックグラウンドかを予測するfcat、SwaVディスクリプタを再構築しようとするfembの3つを考慮する。 0.72
We denote these three outputs as follows: これら3つのアウトプットを以下に示す。 0.59
ˆbi = fbox(vi) fbox(vi) = fbox(vi) 0.59
ˆzi = femb(vi) シュジ = femb(vi) 0.56
ˆpi = fcat(vi) fcat(vi)=fcat(vi) 0.58
We use each such triplet to define a tuple ˆyi = ( ˆbi, ˆzi, ˆpi) and denote the set of N tuples by ˆy = { ˆyi}N i=1. それらの三重項を用いてタプル(英語版)(タプル)を定め、 n 個のタプルの集合を sy = { syi}n i=1 で表す。 0.64
We assume that the number of DETR queries N is larger than M, and we therefore pad y to obtain N tuples, and assign a label ci ∈ {0, 1} to each box in y to indicate whether it was a Selective Search proposal (ci = 1) or padded proposal (ci = 0). 我々は detr クエリ n の数が m よりも大きいと仮定し、したがって y を n 個のタプルを得るようにパディングし、選択検索提案 (ci = 1) かパディング提案 (ci = 0) かを示すために y の各ボックスにラベル ci ∈ {0, 1} を割り当てる。
訳抜け防止モード: 我々はDETRクエリNの数がMより大きいと仮定する。 したがって、我々は y をパッドして N 個のタプルを取得し、ラベル ci ∈ { 0, 1 } を y の各ボックスに割り当て、それが選択探索の提案であるかどうかを示す(ci = 1 )。 あるいはpadded proposal ( ci = 0 )
0.84
With the DETR family of object detectors [59, 4], there are no assumptions on the order of the labels or the predictions and therefore we first match the objects of y to the ones in ˆy via the Hungarian bipartite matching algorithm [33]. 対象検出器の detr ファミリー [59, 4] では、ラベルの順序や予測には仮定がないため、まず y のオブジェクトとハンガリー二部マッチングアルゴリズム [33] によって sy のオブジェクトとのマッチングを行う。 0.69
Specifically, we find the permutation σ that minimizes the optimal matching cost between y and ˆy: 具体的には、y と y の間の最適マッチングコストを最小化する置換 σ を見つける。 0.72
Where Lmatch is the pairwise matching cost matrix as defined in [4] and ΣN is the set of all permutations over {1 . Lmatch は [4] で定義される対の整合コスト行列であり、ΣN は {1 上のすべての置換の集合である。 0.80
. . N}. Using the optimal σ, we define the loss as follows: . . N}。 最適 σ を用いて損失を次のように定義する。 0.81
σ = arg min σ∈ΣN σ = arg min σσσn 0.92
Lmatch(yi, ˆyσ(i)) Lmatch(yi, yσ(i)) 0.93
(2) N(cid:88) (2) n(cid:88) 0.81
i N(cid:88) 私は n(cid:88) 0.65
(cid:104) i=1 (cid:104) i=1 0.69
(cid:105) (4) (cid:105) (4) 0.82
LDET Reg(y, ˆy) = LDET Reg(y, sy) = 0.81
λf Lf ocal(ci, ˆpσ(i) λf Lf ocal(ci, >pσ(i) 0.87
) + 1{ci(cid:54)=φ}(λbLbox(bi, ˆbσ(i)) + λeLemb(zi, ˆzσ(i))) ) + 1{ci(cid:54)= φ}(λblbox(bi, sσ(i)) + λelemb(zi, sσ(i))) 0.92
(3) Where Lf ocal is the Focal Loss [34], and Lbox is based on the the L1 loss and the Generalized Intersection Over Union (GIoU) loss [42]. (3)LfocalがFocal Loss[34]であり、LboxがL1損失とGIoU(Generalized Intersection Over Union)損失に基づいている場合 [42]。
訳抜け防止モード: (3) Lf ocal is the Focal Loss [34 ] そして Lbox は L1 の損失と GIoU (Generalized Intersection Over Union) の損失 [42 ] に基づいている。
0.80
Finally, we define Lemb to be the L1 loss over the pairs zi and ˆzj, which corresponds to the “Object Embedding” pretext task discussed in Section 5: 最後に、Lemb を、第5節で議論された “Object Embedding” プリテキストタスクに対応するペア zi と yzj 上の L1 ロスと定義する。 0.69
Lemb(zi, zj) = (cid:107)zi − ˆzj(cid:107)1 Lemb(zi, zj) = (cid:107)zi − szj(cid:107)1 0.94
6 Experiments In this section, we present extensive evaluation of DETReg on standard benchmarks, MS COCO [35] and PASCAL VOC [16], under both full and low data settings in Section 6.1. 6 実験 本稿では,標準ベンチマークであるMS COCO [35] とPASCAL VOC [16] のDETRegを,第6.1節のフルデータ設定と低データ設定の両方で広範囲に評価する。 0.80
We visualize and analyze DETReg in Section 6.2 to better illustrate the “objectness” encoded in the learned representations. detregをセクション6.2で視覚化して分析し、学習した表現にエンコードされた“オブジェクト性”をよりよく説明します。
訳抜け防止モード: セクション6.2におけるDETRegの可視化と解析 学習した表現にエンコードされた“オブジェクト性”をよりよく説明します。
0.60
Datasets. We conduct the pretraining stage on ImageNet100 (IN100) [13] following prior work [53, 46, 54], and evaluate the learned representation by fine-tuning the model on MS COCO 2017 [35], or PASCAL VOC [16] with full data or small subsets of the data (1%, 2%, 5% and 10%) that were randomly chosen and remained consistent for all models. データセット。 先行研究 [53, 46, 54] に続いて ImageNet100 (IN100) [13] 上で事前訓練を行い,MS COCO 2017 [35] または PASCAL VOC [16] のモデルにランダムに選択され,すべてのモデルに一貫性が保たれたデータの部分集合(1%, 2%, 5%, 10%)をフルデータまたは小さなサブセットで微調整することにより,学習表現を評価する。 0.78
IN100 is a subset of the the ImageNet (IN-1K) ILSRVC 2012 challenge data that contains around 125K images (∼10% of the full ImageNet data) from 100 different classes. IN100は、画像Net (IN-1K) ILSRVC 2012チャレンジデータのサブセットであり、100の異なるクラスの125Kイメージ(全画像Netデータの10%)を含む。 0.91
When using IN100, We only make use of the images and do not use class information. IN100を使用する場合、イメージのみを使用し、クラス情報を使用しない。 0.82
We follow the standard protocols as earlier works [53, 25, 24] and train on the train2017 partition and evaluate on the val2017 partition. 以前の作業[53, 25, 24]に従って標準プロトコルに従い、Train2017パーティションでトレーニングを行い、val2017パーティションで評価します。 0.70
Similarly, for PASCAL VOC, we utilize the trainval07+12 partitions for fine tuning and the test07 for evaluation. 同様に、PASCAL VOCでは、微調整にTraval07+12パーティション、評価にtest07を使用する。 0.70
Baselines. We adopt the recent Deformable DETR [59] model with a ResNet-50 [26] backbone as our base object detector architecture. ベースライン。 我々は、ResNet-50[26]バックボーンを備えたDeformable DETR[59]モデルをベースオブジェクト検出アーキテクチャとして採用している。 0.68
We compare DETReg against architectures which utilize supervised and unsupervised ImageNet pretrained backbones. 教師付きおよび教師なしのImageNet事前学習バックボーンを利用するアーキテクチャとDETRegを比較した。 0.54
For example, the standard Deformable DETR uses a supervised backbone and “Deformable DETR w/ SwAV” uses a SwAV [6] backbone. 例えば、標準のDeformable DETRは教師付きバックボーンを使用し、“Deformable DETR w/ SwAV”はSwaV[6]バックボーンを使用する。 0.74
DETReg is pretrained on IN100 in an unsupervised way and uses a SwAV backbone that was trained on IN-1K. DETRegは教師なしの方法でIN100で事前訓練され、IN-1KでトレーニングされたSwaVバックボーンを使用している。 0.54
We also compare to various past works that reported results on MS COCO and PASCAL VOC [6, 53, 55] after pretraining on the full IN-1K. また, MS COCO と PASCAL VOC [6, 53, 55] について, IN-1K の事前トレーニング後に報告した様々な過去の成果と比較した。 0.74
Pretraining stage. プレトレーニングステージ。 0.73
We initialize the backbone of DETReg with a pretrained SwAV [6] model which is fixed throughout the pretraining. プレトレーニング中に固定されたSwaV[6]モデルでDETRegのバックボーンを初期化する。 0.61
In the object-embedding branch, femb and fbox are MLPs with 2 hidden layers of size 256 followed by a ReLU [39] nonlinearity. オブジェクト埋め込み分岐では、fmbとfboxは2つの隠蔽層256のMDPであり、ReLU[39]非線形性が続く。 0.72
The output sizes of femb fembの出力サイズ 0.65
6 6 0.85
英語(論文から抽出)日本語訳スコア
and fbox are 4 and 512. fcat is implemented as a single fully-connected layer with 2 outputs. fcatは2つの出力を持つ1つの完全接続層として実装されている。 0.64
We select M = 30 proposals per-image and run experiments on an NVIDIA DGX, V100 x8 GPUs machine. 画像毎にM = 30の提案を選択し、NVIDIA DGX, V100 x8 GPUマシンで実験を行う。 0.78
To compute the Selective Search boxes, we use the compact “fast” version implementation of OpenCV [3] python package. 選択検索ボックスの計算には,OpenCV[3] pythonパッケージのコンパクトな “fast” バージョン実装を使用する。 0.78
All our models are pretrained on unlabeled data for 50 epochs with a batch size of 28 per GPU. 当社のモデルはすべて,GPU毎のバッチサイズ28の50エポックのラベル付きデータで事前トレーニングされています。 0.65
We use a learning rate of 2 · 10−4 and decay the learning rate by a factor of 10 after 40 epochs. 学習速度は2·10−4であり,40年代以降の学習率を10倍に低下させる。 0.72
During pretraining, we randomly flip, crop, and resize the images similar to previous works [59, 12]. 事前トレーニング中、私たちは、以前の作品 [59, 12] と同様の画像をランダムにフリップ、トリミング、リサイズします。 0.64
We randomly choose a scale from 10 predefined sizes between 320 to 480, and resize the image such that the short side is within this scale. 320から480までの10の予め定義されたサイズからランダムにスケールを選択し、短辺がこのスケール内にあるようにイメージをリサイズします。 0.73
We also perform similar image augmentations over the patches that correspond to region proposals, before obtaining the embeddings zi. また,埋め込み zi を取得する前に,領域の提案に対応するパッチに対して,同様の画像拡張を行う。 0.69
Fine-tuning stage. When fine tuning, we drop the femb branch, and set the last fully-connected layer of fcat to have size which is equal to the target dataset number of classes plus background. 微調整ステージ。 微調整を行うと、fembブランチをドロップし、fcatの最後の完全接続層を、ターゲットとするクラスのデータセット数とバックグラウンドと等しいサイズに設定します。 0.66
This model is then identical in its structure to Deformable DETR. このモデルは、その構造においてDeformable DETRと同一である。 0.76
For MS COCO fine tuning, we use the exact hyperparams as suggested in [59]. MS COCO の微調整には[59] で示唆されるような正確なハイパーパラムを用いる。 0.64
For PASCAL VOC which is smaller, we adopt a different LR schedule and train for 100 epochs and drop LR after 70 epochs. より小さいPASCAL VOCでは、異なるLRスケジュールを採用し、100エポックのトレーニングを行い、70エポックの後にLRをドロップする。 0.67
Similarly, for low-data regime experiments, we train all models for 150 epochs to ensure the training converges. 同様に、低データ体制の実験では、トレーニングが収束することを確実にするために、全てのモデルを150エポックで訓練する。 0.58
We run every experiment once and therefore do not report confidence intervals, mainly because we operate under limited budged and our core experiments require few days of training. 我々は全ての実験を一度に実行し、そのため信頼区間を報告しない。
訳抜け防止モード: 私たちはすべての実験を一度実行し、信頼区間を報告しません。 中心となる実験は、数日間のトレーニングが必要です。
0.67
6.1 Evaluation Results Results on MS COCO. 6.1 評価結果 MS COCOによる。 0.64
We present the evaluation results on MS COCO with various amount of data for fine-tuning in Figure 3. 図3の微調整のためのデータ量が異なるms cocoの評価結果を示す。 0.63
DETReg consistently outperforms previous pretraining strategies with larger margin when fine-tuning on less data. DETRegは、より少ないデータで微調整する場合、従来よりもずっと大きなマージンで事前訓練戦略を上回ります。 0.51
For example, DETReg improves the average precision (AP) score from 8.7 to 15.6 points with 1% of the full training data of MS COCO. 例えば、DETRegは平均精度(AP)スコアを8.7から15.6ポイントに改善し、MS COCOの全トレーニングデータの1%を達成している。 0.72
Figure 3: Object detection results finetuned on MS COCO train2017 and evaluated on val2017. 図3: MS COCOトレイン2017で微調整されたオブジェクト検出結果とval2017での評価。 0.67
DETReg consistently outperforms previous pretraining approaches by a large margin. detregは、前回のプレトレーニングアプローチを大きく上回っている。 0.52
When finetuning with 1% data, DETReg improves 5 points in AP over prior methods. 1%のデータで微調整すると、DETRegは以前の方法よりもAPの5点を改善する。 0.57
Table 1: Object Detection finetuned on PASCAL VOC trainval07+2012 and evaluated on test07. 表1: PASCAL VOC trainval07+2012で微調整されたオブジェクト検出。 0.76
DETReg improves 6 points in AP using 10% data and 2.5 points in AP using the full data. DETRegは、全データを使用したAPの10%データと2.5ポイントを使用して、APの6ポイントを改善する。
訳抜け防止モード: DETRegがAPで6ポイント改善 10%のデータを使って APで2.5点 完全なデータを使って
0.78
Method Deformable DETR Deformable DETR w/ SwAV [6] DETReg (ours) 変形性DETR 変形性 DETR w/ SwAV [6] DETReg (ours) 0.80
PASCAL VOC 10% AP50 AP75 AP 45.4 67.6 42.9 50.5 71.2 46.5 51.4 72.2 56.6 PASCAL VOC 10% AP50 AP75 AP 45.4 67.6 42.9 50.5 71.2 46.5 51.4 72.2 56.6 0.54
PASCAL VOC 100% AP50 AP75 AP 65.6 82.6 59.5 68.1 83.0 61.0 63.5 83.3 70.3 PASCAL VOC 100% AP50 AP75 AP 65.6 82.6 59.5 68.1 83.0 61.0 63.5 83.3 70.3 0.54
Results on PASCAL VOC. PASCAL VOCの結果。 0.72
We pretrain DETReg over IN100 and finetune it on PASCAL VOC. 我々は,IN100よりDETRegを事前訓練し,PASCALVOCで精査する。 0.58
As mentioned earlier, we follow train/test splits reported in prior works. 先に述べたように、以前の作業で報告された列車/テスト分割をフォローする。 0.45
We finetune using 10% and 100% of the training data. トレーニングデータの10%と100%を精査しています。 0.78
Results in Table 1 demonstrate that DETReg consistently improves over baselines on PASCAL VOC both in the low-data regime and with the full data. 表1では、DreTRegは低データと全データの両方においてPASCAL VOCのベースラインを一貫して改善することを示した。 0.72
For example, it improves by 2.5 (AP) points over Deformable DETR with SwAV and by 4 points over the standard Deformable DETR. 例えば、SwaVによるDeformable DETRよりも2.5(AP)ポイント、標準のDeformable DETRよりも4ポイント改善されている。 0.76
Furthermore, DETReg achieves improved overall performance compared to previous approaches (see Table 2). さらに、DETRegは以前のアプローチと比べて全体的なパフォーマンスが改善されている(表2参照)。 0.60
7 12510100Data percent (%)010203040AP3.811. 022.030.243.89.913.8 20.624.140.98.716.02 6.934.845.215.621.82 9.236.245.5APDeforma ble DETRMoCoV2Def. 7 12510100Data% (%)010203040AP3.811. 022.030.243.89.913.8 20.624.140.98.716.02 6.934.845.215.621.82 9.236.245.5APDeforma ble DETRMoCoV2Def 0.52
DETR + SwAVDETReg12510100Da ta percent (%)204060AP509.622.7 37.747.162.618.725.3 36.642.061.518.930.0 42.952.164.025.633.8 43.852.664.0AP501251 0100Data percent (%)01020304050AP752. 39.722.732.347.79.51 3.421.024.844.77.115 .628.638.149.516.723 .431.639.249.7AP75 detr + swavdetreg12510100da ta% (%)204060ap509.737.7 47.747.736.642.061.5 18.930.042.952.025.6 33.843.852.664.0ap50 12510100data% (%)01020304050ap752. 39.722.347.79.513.42 1.024.844.7715.628.6 38.149.723.431.639.2 49.749.7ap75 0.16
英語(論文から抽出)日本語訳スコア
Few shot object detection. 被写体検出は少ない。 0.54
We pretrain DETReg over IN100 then follow the standard COCO protocol for few-shot object detection. 我々は、IN100上でDETRegを事前訓練し、数発のオブジェクト検出のための標準COCOプロトコルに従う。 0.55
Specifically, we finetune over the full data of 60 base classes and then finetune over 80 classes which include the 60 base classes plus 20 novel classes with only k ∈ {10, 30} samples per class. 具体的には、60の基底クラスの全データを精査し、60の基底クラスに加えて、k ∈ {10, 30}サンプルのみを持つ20の新しいクラスを含む80以上のクラスを精査する。 0.84
We use the same splits as [49] and report the performance over the novel 20 classes. 我々は[49]と同じスプリットを使用し、20のクラスでパフォーマンスを報告します。 0.68
For finetuning over the base classes, we use the standard hyperparams as reported in the main paper. 基本クラスを微調整するために、本論文で報告されているように、標準ハイパーパラダイムを使用します。 0.53
For finetuning over the novel classes, for k = 10 we use a learning of 2 · 10−5 for 30 epochs. 斬新なクラスを微調整するために、k = 10 の場合、30エポックに対して 2 · 10−5 の学習を用いる。 0.66
For k = 30 we train for 50 epochs with a learning rate of 2 · 10−4. k = 30 の場合、学習速度が 2 · 10−4 の50エポックで訓練する。 0.79
In both settings, we do not drop the learning rate. どちらの設定でも、学習率を下げることはできません。 0.58
The results in Table 3 confirm the advantage of DETReg, with a very large improvement of 7 points and almost 10 points in AP and AP75 in the 30 shot setting. 表3の結果はdetregの利点を確認し、30ショット設定では7ポイント、apとap75では10ポイント近く改善した。
訳抜け防止モード: 表3の結果は、DETRegの利点を裏付けるものであり、非常に大きな7点改善である。 そして、30ショット設定でAPとAP75で約10ポイント。
0.71
Table 2: VOC leader board. 表2:VOCのリーダー。 0.60
Method DETR Faster RCNN Def. Method DETR Faster RCNN Def 0.67
DETR InsDis [52] Jigsaw [22] Rotation [22] NPID++ [37] SimCLR [8] PIRL [37] BoWNet [18] MoCo [25] MoCo-v2 [10] SwAV [6] UP-DETR [12] DenseCL [50] DetCo [55] ReSim [53] DETReg (ours) DETR InsDis [52] Jigsaw [22] Rotation [22] NPID++ [37] SimCLR [8] PIRL [37] BoWNet [18] MoCo [25] MoCo-v2 [10] SwAV [6] UP-DETR [12] DenseCL [50] DetCo [55] ReSim [53] DeTReg (ours) 0.94
AP AP50 AP75 58.3 54.1 62.7 56.1 59.5 65.6 61.2 55.2 52.9 48.9 49.3 46.3 56.9 52.3 55.6 51.5 54.0 59.7 61.1 55.8 62.6 55.9 63.6 57.0 62.7 56.1 62.0 57.2 58.7 65.2 65.0 58.2 65.9 59.2 63.5 70.3 AP AP50 AP75 58.3 54.1 62.7 56.1 59.5 65.6 61.2 55.2 52.9 48.9 49.3 46.3 56.9 52.3 55.6 51.5 54.0 59.7 61.1 55.8 62.6 55.9 63.6 57.0 62.7 56.1 62.0 57.2 58.7 65.2 65.0 58.2 65.9 59.2 63.5 70.3 0.41
78.0 82.6 82.6 80.9 75.1 72.5 79.1 79.4 80.7 81.3 81.5 82.4 82.6 80.1 82.8 82.7 82.9 83.3 78.0 82.6 82.6 80.9 75.1 72.5 79.1 79.4 80.7 81.3 81.5 82.4 82.6 80.1 82.8 82.7 82.9 83.3 0.41
Table 3: Few-shot detection performance for the 20 novel categories on the COCO dataset. 表3:COCOデータセット上の20の新しいカテゴリのショット検出性能。 0.74
Our approach consistently outperforms baseline methods across all shots and metrics. このアプローチは、すべてのショットとメトリクスのベースラインメソッドを一貫して上回ります。 0.49
We follow the data split used in [49]. 我々は[49]で使用されるデータ分割に従う。 0.80
Model FSRW [31] MetaDet [51] FRCN+ft+full [56] Meta R-CNN [56] FRCN+ft-full (Impl by [49]) TFA [49] Meta-DETR [57] DETReg (ours) モデル FSRW [31] MetaDet [51] FRCN+ft+full [56] Meta R-CNN [56] FRCN+ft-full (Impl by [49]) TFA [49] Meta-DETR [57] DETReg (ours) 0.85
novel AP 30 10 5.6 9.1 11.3 7.1 11.1 6.5 12.4 8.7 12.5 9.2 13.7 10.0 17.8 22.9 30.0 18.0 novel AP 30 10 5.6 9.1 11.3 7.1 11.1 6.5 12.4 8.7 12.5 9.2 13.7 10.0 17.8 22.9 30.0 18.0 0.47
novel AP75 30 10 4.6 7.6 6.1 8.1 10.3 5.9 10.8 6.6 12.0 9.2 13.4 9.3 18.5 23.8 33.7 20.0 novel AP75 30 10 4.6 7.6 6.1 8.1 10.3 5.9 10.8 6.6 12.0 9.2 13.4 9.3 18.5 23.8 33.7 20.0 0.46
Comparison with semi-supervised approaches. 半教師付きアプローチとの比較。 0.53
Here we compare DETReg to previous works that employ semi-supervised learning of both labeled and unlabeled data. ここでは、ラベル付きデータとラベルなしデータの双方を半教師付きで学習する以前のDeTRegと比較する。 0.54
Semi-supervised approaches like [36], utilize k% of labeled data but also use the rest of the data without labels. 36]のような半教師付きアプローチでは、ラベル付きデータのk%を使用しながら、ラベルなしで残りのデータを使用する。
訳抜け防止モード: ラベル付きデータのk%を利用する半教師付きアプローチ [36 ] ラベルなしで他のデータを使うこともできます
0.79
We pretrain DETReg on the entire coco train2017 data without using labels, and finetune on random k% of train2017 data for k ∈ {1, 2, 5, 10}. ラベルを使わずにcoco train 2017データ全体のdetregをプリトレーニングし、k ∈ {1, 2, 5, 10} の train 2017 data のランダム k% を微調整した。 0.83
After the pretraining stage, we finetune with a learning rate of 2 · 10−4. 事前学習後、学習率2·10−4で微粉化する。 0.54
For k ∈ {5, 10} we finetune for 100 epochs and decay the learning rate in a factor of 10 after 40 epochs. k ∈ {5, 10} に対して、100エポックの微調整を行い、40エポックの後に10の係数で学習速度を減衰させる。 0.66
For k ∈ {1, 2} we finetune for 200 epochs and drop learning rate after 150 epochs. k ∈ {1, 2} の場合、200エポック、150エポックの後に学習速度を低下させる。 0.67
In each of the settings, we train 4 different models each one with a different random seed, and report the standard deviation of the result. 各設定では、4つの異なるモデルをそれぞれ異なるランダムシードで訓練し、その結果の標準偏差を報告する。 0.67
The results in Table 4 confirm the advantage of the DETReg pretraining stage, which results in improved performance for all settings. 表4の結果は、DETReg事前訓練ステージの利点を確認し、その結果、すべての設定のパフォーマンスが改善された。 0.71
Table 4: Comparison to semi-supervised detection methods, trained over train2017 with limited amount of labeled data. 表4: ラベル付きデータの限られた量で2017年にトレーニングされた半教師付き検出方法との比較。 0.65
All approaches utilize only k% of labeled COCO while using the rest as unlabeled data. すべての手法はラベル付きCOCOのk%しか利用せず、残りはラベルなしのデータとして利用する。 0.60
Evaluation on val2017. val2017の評価。 0.79
Method CSD [30] STAC [45] Unbiased-Teacher [36] DETReg (ours) 方法 CSD [30] STAC [45] Unbiased-Teacher [36] DETReg (ours) 0.94
1% 10.51 ± 0.06 13.97 ± 0.35 20.75 ± 0.12 22.90 ± 0.14 1% 10.51 ± 0.06 13.97 ± 0.35 20.75 ± 0.12 22.90 ± 0.14 0.69
2% 13.93 ± 0.12 18.25 ± 0.25 24.30 ± 0.07 28.68 ± 0.26 2% 13.93 ± 0.12 18.25 ± 0.25 24.30 ± 0.07 28.68 ± 0.26 0.69
COCO 5% 18.63 ± 0.07 24.38 ± 0.12 28.27 ± 0.11 30.19 ± 0.11 COCO 5% 18.63 ± 0.07 24.38 ± 0.12 28.27 ± 0.11 30.19 ± 0.11 0.74
10% 22.46 ± 0.08 28.64 ± 0.21 31.50 ± 0.10 35.34 ± 0.43 10% 22.46 ± 0.08 28.64 ± 0.21 31.50 ± 0.10 35.34 ± 0.43 0.69
6.2 Ablation and Visualization 6.2 アブレーションと可視化 0.67
Ablation studies. アブレーション研究。 0.69
To assess the contribution of the various components in our system we perform an extensive ablation study. 本システムにおける各種成分の寄与を評価するため,広範囲にわたるアブレーション研究を行った。
訳抜け防止モード: システムにおける各種コンポーネントの貢献度を評価する 広範囲にわたるアブレーション研究を行います
0.81
Specifically, we validate the contribution of using the Selective Search by replacing the proposals of an image with other proposals that were produced for a different (randomly chosen) image. 具体的には、画像の提案を別の(ランダムに選択された)画像に対して作成された他の提案に置き換えることで、選択的検索の使用の貢献を検証する。 0.72
The goal of this is to check that the Selective Search proposals indeed capture some objectness. この目的は、Selective Searchの提案が実際にいくつかのオブジェクトをキャプチャしていることを確認することである。
訳抜け防止モード: この目的は Selective Searchの提案が実際に何らかのオブジェクトをキャプチャしていることを確認する。
0.70
Next, we assess the embedding loss Lemb contribution by training with multiple coefficients λe ∈ {0, 1, 2}. 次に,複数の係数 λe ∈ {0, 1, 2} を用いた学習により埋め込み損失レブ寄与を評価する。 0.72
Finally, we validate that there’s no performance drop in the 最後に、パフォーマンスの低下がないことを検証します。 0.60
8 8 0.85
英語(論文から抽出)日本語訳スコア
model when freezing the backbone during training. トレーニング中にバックボーンを凍結するモデル。 0.73
All the models are trained on IN100 for 50 epochs and finetuned on MS COCO. 全てのモデルは50エポックでIN100で訓練され、MS COCOで微調整される。 0.71
The results in Table 5 confirm our design choices. 表5の結果は、私たちの設計選択を確認します。 0.66
Table 5: We test how pretraining with different settings on IN100 transfer when fine tuned on MS COCO train2017 and evaluated on val2017. 表5: MS COCOトレイン2017で微調整し、val2017で評価した場合、IN100トランスファーで異なる設定で事前トレーニングする方法をテストする。 0.67
Model Reg. Proposals モデル Reg 提案 0.67
Embedding Loss Frozen Backbone 損失を埋め込む 冷凍バックボーン 0.61
Class Error ↓ Box Error ↓ Class Error ~ Box Error ~ 0.60
DETReg Random DETReg ランダム 0.78
(cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 0.73
λe = 0 λe = 0 λe = 1 λe = 2 λe = 1 λe = 0 λe = 0 λe = 1 λe = 2 λe = 1 0.90
(cid:88) 11.3 9.50 8.81 9.14 8.61 (cid:88) 11.3 9.50 8.81 9.14 8.61 0.61
.044 .037 .037 .039 .037 .044 .037 .037 .039 .037 0.64
Class Agnostic Object Detection. クラスに依存しないオブジェクト検出。 0.43
The goal of this experiment is to assess the performance of DETReg in detecting objects right after the pretraining stage. 本実験の目的は,事前学習直後の物体検出におけるDETRegの性能を評価することである。 0.83
We compare the pretrained DETReg detectors using different box selection methods described in Section 4 to other unsupervised pretraining methods and to the classical Selective Search algorithm, which does not utilize any annotated data. 第4節で記述された異なるボックス選択法を用いて事前学習したDETReg検出器と,注釈付きデータを使用しない従来の選択探索アルゴリズムとの比較を行った。 0.83
We report the Class Agnostic Object Detection performance in Table 6. 表6のクラス非依存なオブジェクト検出性能について報告する。 0.65
Surprisingly, although trained on Selective Search annotations, the DETReg variants achieve improved performance over this task, which is likely due to helpful inductive biases in the training process and detection architecture. 意外なことに、Selective Searchアノテーションでトレーニングされているにもかかわらず、DETRegの亜種は、トレーニングプロセスと検出アーキテクチャにおいて有益な帰納的バイアスのため、このタスクよりもパフォーマンスの向上を実現している。 0.50
We find that the Top-K, which is the most simple setting of our model performs the best, and therefore we used this approach thorough out the rest of the work. 私たちのモデルの最も単純な設定であるTop-Kが最善を尽くしていることが分かりました。
訳抜け防止モード: モデルの最も単純な設定であるトップ-kが最良であることに気付きました。 それゆえ、私たちはこのアプローチを残りの作業の徹底的に使用しました。
0.70
Table 6: Class agnostic object proposal evaluation on MS COCO val2017. 表6: MS COCO val2017におけるクラスに依存しないオブジェクト提案の評価。 0.62
For each method, we consider the top 100 proposals. 各メソッドについて,トップ100の提案について考察する。 0.59
Method Def. DETR [59] w/ SwAV [6] UP-DETR [12] Rand. メソッド定義。 DETR [59] w/ SwAV [6] UP-DETR [12] ランダム。 0.67
Prop. Selective Search [47] DETReg-IS (ours) DETReg-RK (ours) DETReg-TK (ours) Prop Selective Search [47] DETReg-IS (ours) DETReg-RK (ours) DETReg-TK (ours) 0.70
AP AP50 AP75 R@1 R@10 R@100 0.0 0.0 0.0 0.0 0.2 0.7 0.7 1.0 APAP50 AP75 R@1 R@10 R@100 0.0 0.0 0.0 0.0 0.2 0.7 0.7 1.0 0.59
0.6 0.6 0.4 0.8 10.9 9.0 11.7 12.7 0.6 0.6 0.4 0.8 10.9 9.0 11.7 12.7 0.42
0.1 0.1 0.0 0.0 1.5 1.8 2.9 3.6 0.1 0.1 0.0 0.0 1.5 1.8 2.9 3.6 0.42
0.0 0.0 0.0 0.0 0.2 0.3 0.5 0.6 0.0 0.0 0.0 0.0 0.2 0.3 0.5 0.6 0.42
0.0 0.0 0.0 0.0 0.5 2.0 2.4 3.1 0.0 0.0 0.0 0.0 0.5 2.0 2.4 3.1 0.42
0.0 0.0 0.0 0.0 0.1 0.1 0.2 0.6 0.0 0.0 0.0 0.0 0.1 0.1 0.2 0.6 0.42
Visualizing DETReg. DETRegを視覚化する。 0.53
Figure 5 shows qualitative examples of DETReg unsupervised box predictions, and similar to [59], it also shows the pixel-level gradient norm for the x/y bounding box center and the object embedding. 図5は、教師なしボックス予測のDETRegの定性的な例を示し、[59]と同様、x/y境界ボックス中心とオブジェクト埋め込みに対するピクセルレベルの勾配ノルムを示している。 0.69
These gradient norms indicate how sensitive the predicted values are to perturbations of the input pixels. これらの勾配ノルムは、予測値が入力画素の摂動にどれほど敏感であるかを示す。
訳抜け防止モード: これらの勾配ノルムはいかに感度が高いかを示す 予測値は入力ピクセルの摂動です
0.71
For the first three columns, DETReg attends to the object edges for the x/y predictions and z for the predicted object embedding. 最初の3つの列では、DETReg は x/y 予測のためのオブジェクトエッジと、予測対象の埋め込みのための z に付随する。 0.64
The final column shows a limitation where the background plays a more important role than the object in the embedding. 最後の列は、埋め込みにおけるオブジェクトよりも背景が重要な役割を果たす制限を示しています。 0.84
We observed that phenomena occasionally, and this could be explained because we do not use any object class labels during the pretraining. 私たちはその現象を時々観察し、これは事前トレーニング中にオブジェクトクラスラベルを使用しないので説明できます。 0.77
Furthermore, we examine the learned object queries (see Figure 4), and observe that they specialize in similar way to ones in Deformable DETR, despite not using any human annotated data. さらに、学習対象の問合せ(図4参照)を検証し、人間の注釈付きデータを使用しないにもかかわらず、変形可能なDETRの問合せと同様の方法で専門化することを観察する。 0.67
The main difference is that the Deformable DETR slots have greater variance of the predicted box locations and they are typically more dominated by a particular shape of bounding box (more points are of a single color). 主な違いは、変形可能なDETRスロットは予測されたボックス位置のばらつきが大きく、典型的には境界ボックスの特定の形状によって支配されることである(より多くの点は単一の色である)。 0.75
7 Discussion In this work, we presented DETReg, an unsupervised pretraining approach for object DEtection with TRansformers using Region priors. 7 討論 本研究では,領域先行値を用いたTRansformersを用いたオブジェクト検出のための教師なし事前学習手法であるDETRegを提案する。 0.60
Our model and proposed pretext tasks are based on the observation that in order to learn meaningful representations in the unsupervised pretraining stage, the detector model not only has to learn to localize, but also to obtain good embeddings of the detected objects. 本モデルと提案プリテキストタスクは,教師なし事前学習段階において有意義な表現を学ぶためには,検出対象の局所化を学ぶだけでなく,検出対象の適切な埋め込みを得る必要があるという観察に基づく。 0.79
Our results demonstrate that this approach is beneficial across the board on MS COCO and 提案手法は,MS COCOの委員会全体で有益であることを示す。
訳抜け防止モード: 私たちの結果は このアプローチは、MS COCOandのボード全体で有益である
0.73
9 9 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: Despite not using any labeled training data, each DETReg slot specializes to a specific area of each image and uses a variety of box sizes much like Deformable DETR. 図4:ラベル付きトレーニングデータを使用しないにもかかわらず、各DETRegスロットは各画像の特定の領域に特化しており、Deformable DETRとよく似たさまざまなボックスサイズを使用する。 0.75
Each square corresponds to a DETR slot, and shows the location of its bounding box predictions. 各正方形はdetrスロットに対応し、境界ボックスの予測の位置を示す。 0.66
We compare 10 slots of the supervised Deformable DETR (top) and unsupervised DETReg (bottom) decoder for the MS COCO 2017 val dataset. 我々は,MS COCO 2017 valデータセットに対して,教師付きDeformable DETR(トップ)と教師なしDETReg(ボット)デコーダの10スロットを比較した。 0.59
Each point shows the center coordinate of the predicted bounding box, where following a similar plot in [4], a green point represents a square bounding box, a orange point is a large horizontal bounding box, and a blue point is a large vertical bounding box. 各点が予測された境界ボックスの中心座標を示し、[4]において同様のプロットに従って、緑点が正方形の境界ボックスを表し、オレンジ点が大きな水平な境界ボックスであり、青点が大きな垂直な境界ボックスである。 0.76
Deformable DETR has been trained on MS COCO 2017 data, while DETReg has only been trained on unlabeled ImageNet data. 変形可能なDETRはMS COCO 2017データでトレーニングされ、DETRegはラベルのないImageNetデータでのみトレーニングされている。 0.68
∂I (cid:107) (cid:107) ∂x ∂i (cid:107) (cid:107) ∂x 0.70
(cid:107) ∂y ∂I (cid:107) (cid:107)∂y ∂i(cid:107) 0.70
(cid:107) ∂z ∂I (cid:107) (cid:107)∂z ∂i(cid:107) 0.70
Figure 5: Shown are the gradient norms from the unsupervised DETReg detection with respect to the input image I for (top) the x coordinate of the object center, (middle) the y coordinate of the object center, (bottom) the feature-space embedding, z. 図5:示されているのは、対象中心のx座標(上)、(中)対象中心のy座標、(ボット)特徴空間埋め込み、zに対する入力画像iに対する教師なしのデトレグ検出からの勾配ノルムである。 0.68
PASCAL VOC, and especially on low-data regime settings, compared to challenging supervised and unsupervised baselines. PASCAL VOC、特に低データ設定では、教師なしと教師なしのベースラインに挑戦する。 0.50
In general, unsupervised approaches can allow models to pretrain on large amounts of unlabeled data, which is very advantageous in domains like medical imaging where obtaining human-annotated data is expensive. 一般に、教師なしのアプローチでは、大量のラベルのないデータを事前訓練することができるが、これは、ヒトの注釈付きデータを取得するのが高価である医療画像のような領域で非常に有利である。 0.50
Acknowledgements We would like to thank Sayna Ebrahimi for helpful feedback and discussions. 覚書 Sayna Ebrahimi氏には,フィードバックと議論に感謝いたします。 0.56
This project has received funding from the European Research Council (ERC) under the European Unions Horizon 2020 research and innovation programme (grant ERC HOLI 819080). このプロジェクトは欧州連合のHorizon 2020研究イノベーションプログラム(ERC HOLI 819080)の下で欧州研究評議会(ERC)から資金提供を受けている。 0.76
Prof. Darrell’s group was supported in part by DoD including DARPA’s XAI, LwLL, and/or SemaFor programs, as well as BAIR’s industrial alliance programs. Darrell教授のグループは、DARPAのXAI、LwLL、および/またはSemaForプログラムを含むDoDと、BAIRの産業同盟プログラムによって部分的に支援された。 0.75
GC group was supported by the Israel Science Foundation (ISF 737/2018), and by an equipment grant to GC and Bar-Ilan University from the Israel Science Foundation (ISF 2332/18). GCグループは、Israel Science Foundation (ISF 737/2018) と、Israel Science Foundation (ISF 2332/18) のGCとBar-Ilan大学への機器助成金によって支援された。 0.82
This work was completed in partial fulfillment for the Ph.D degree of the first author. この研究は、最初の著者のPh.Dの学位を部分的に充足して完了した。 0.62
10 10 0.85
英語(論文から抽出)日本語訳スコア
References [1] Alexe, B., Deselaers, T., Ferrari, V.: What is an object? 参照 [1] Alexe, B., Deselaers, T., Ferrari, V.: オブジェクトとは何か? 0.88
In: CVPR. IEEE (2010) 3 [2] Arbeláez, P., Pont-Tuset, J., Barron, J.T., Marques, F., Malik, J.: Multiscale combinatorial 略称はcvpr。 IEEE (2010) 3 [2] Arbeláez, P., Pont-Tuset, J., Barron, J.T., Marques, F., Malik, J.: Multiscale combinatorial 0.69
grouping. In: CVPR (2014) 3 グループ化。 in: cvpr (2014) 3 0.70
[3] Bradski, G.: The OpenCV Library. [3] bradski, g.: the opencv library の略。 0.74
Dr. Dobb’s Journal of Software Tools (2000) 3, 7 [4] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object Dr. Dobb's Journal of Software Tools (2000) 3, 7 [4] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: エンドツーエンドオブジェクト 0.90
detection with transformers. ECCV (2020) 2, 3, 5, 6, 10 変圧器による検出 ECCV (2020) 2, 3, 5, 6, 10 0.81
[5] Caron, M., Bojanowski, P., Joulin, A., Douze, M.: Deep clustering for unsupervised learning of [5]Caron,M.,Bojanowski, P.,Joulin,A.,Douze,M .:教師なし学習のためのディープクラスタリング
訳抜け防止モード: [5 ]Caron, M., Bojanowski, P., Joulin, A., Douze , M. : 教師なし学習のための深層クラスタリング
0.80
visual features. In: ECCV (2018) 3 視覚的特徴 In: ECCV (2018) 3 0.77
[6] Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., Joulin, A.: Unsupervised learning of [6]Caron,M.,Misra,I.,Ma iral,J.,Goyal,P.,Boj anowski,P.,Joulin,A. :教師なし学習
訳抜け防止モード: [6 ]Caron, M., Misra, I., Mairal, J. , Goyal , P. , Bojanowski , P. , Joulin , A. : 教師なし学習
0.87
visual features by contrasting cluster assignments. クラスタ割り当ての対比によるビジュアル機能。 0.71
NeurIPS (2020) 1, 2, 5, 6, 7, 8, 9 NeurIPS (2020) 1, 2, 5, 6, 7, 8, 9 0.85
[7] Carreira, J., Sminchisescu, C.: Cpmc: Automatic object segmentation using constrained para- [7]Carreira, J., Sminchisescu, C.: Cpmc:制約パラメータを用いた自動オブジェクトセグメンテーション 0.84
metric min-cuts. metric min-cuts 0.81
TPAMI 34(7), 1312–1328 (2011) 3 TPAMI 34(7), 1312–1328 (2011) 3 0.92
[8] Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning [8] Chen, T., Kornblith, S., Norouzi, M., Hinton, G.:コントラスト学習のためのシンプルな枠組み 0.89
of visual representations. arXiv preprint arXiv:2002.05709 (2020) 1, 2, 8 視覚的な表現です arXiv preprint arXiv:2002.05709 (2020) 1, 2, 8 0.80
[9] Chen, T., Kornblith, S., Swersky, K., Norouzi, M., Hinton, G.: Big self-supervised models are 9] Chen, T., Kornblith, S., Swersky, K., Norouzi, M., Hinton, G.:大きな自己教師付きモデル 0.81
strong semi-supervised learners. 強力な半教師付き学習者。 0.40
NeurIPS (2020) 1 NeurIPS (2020) 1 0.85
[10] Chen, X., Fan, H., Girshick, R., He, K.: Improved baselines with momentum contrastive [10]Chen,X.,Fan,H.,Girsh ick,R.,He,K.:運動量に対照的なベースラインの改善 0.77
learning. arXiv preprint arXiv:2003.04297 (2020) 2, 8 学ぶこと。 arXiv preprint arXiv:2003.04297 (2020) 2, 8 0.75
[11] Cheng, M.M., Zhang, Z., Lin, W.Y., Torr, P.: Bing: Binarized normed gradients for objectness [11] Cheng, M.M., Zhang, Z., Lin, W.Y., Torr, P.: Bing: 対象性のための二元化ノルム勾配 0.80
estimation at 300fps. 推定は300fps。 0.82
In: CVPR (2014) 3 in: cvpr (2014) 3 0.69
[12] Dai, Z., Cai, B., Lin, Y., Chen, J.: UP-DETR: Unsupervised pre-training for object detection [12]Dai,Z.,Cai,B.,Lin,Y. ,Chen,J.:UP-DETR:対象検出のための教師なし事前訓練 0.76
with transformers. CVPR (2021) 1, 2, 3, 7, 8, 9 変圧器で CVPR (2021) 1, 2, 3, 7, 8, 9 0.69
[13] Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical [13] Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A Large-scale hierarchical 0.97
image database. In: CVPR. 画像データベース。 略称はcvpr。 0.59
Ieee (2009) 1, 6 Ieee (2009) 1, 6 0.85
[14] Doersch, C., Gupta, A., Efros, A.A.: Unsupervised visual representation learning by context [14]Doersch, C., Gupta, A., Efros, A.A.:文脈による教師なし視覚表現学習 0.83
prediction. In: ICCV (2015) 3 予測だ in: iccv (2015) 3 0.67
[15] Endres, I., Hoiem, D.: Category-independent object proposals with diverse ranking. [15] Endres, I., Hoiem, D.: さまざまなランクを持つカテゴリーに依存しないオブジェクトの提案。 0.66
TPAMI 36(2), 222–234 (2013) 3 TPAMI 36(2), 222–234 (2013) 3 0.89
[16] Everingham, M., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.: The pascal visual 16]Everingham, M., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.:Pascal visual 0.85
object classes (voc) challenge. オブジェクトクラス (voc) チャレンジ。 0.74
IJCV 88(2), 303–338 (2010) 2, 6 IJCV 88(2), 303–338 (2010) 2, 6 0.91
[17] Felzenszwalb, P.F., Huttenlocher, D.P. [17]Felzenszwalb, P.F., Huttenlocher, D.P. 0.82
: Efficient graph-based image segmentation. 効率的なグラフベース画像分割 0.74
IJCV 59(2), IJCV 59(2) 0.67
167–181 (2004) 4 167–181 (2004) 4 0.88
[18] Gidaris, S., Bursuc, A., Komodakis, N., Pérez, P., Cord, M.: Learning representations by [18]Gidaris, S., Bursuc, A., Komodakis, N., Pérez, P., Cord, M.: Learning representations by M. 0.88
predicting bags of visual words. 視覚的な言葉の袋を予測します 0.61
In: CVPR (2020) 8 in: cvpr (2020) 8 0.65
[19] Gidaris, S., Singh, P., Komodakis, N.: Unsupervised representation learning by predicting image [19]Gidaris,S.,Singh,P., Komodakis,N.:画像予測による教師なし表現学習 0.76
rotations. arXiv preprint arXiv:1803.07728 (2018) 3 回転 arXiv preprint arXiv:1803.07728 (2018) 3 0.62
[20] Girshick, R.: Fast r-cnn. [20] Girshick, R.: Fast r-cnn. 0.92
In: ICCV (2015) 3 [21] Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object ICCV (2015) 3 [21] Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich Feature Hierarchies for accurate object 0.79
detection and semantic segmentation. 検出とセマンティクスのセグメンテーション。 0.71
In: CVPR (2014) 3 in: cvpr (2014) 3 0.69
[22] Goyal, P., Mahajan, D., Gupta, A., Misra, I.: Scaling and benchmarking self-supervised visual [22]Goyal, P., Mahajan, D., Gupta, A., Misra, I.: 自己監督視覚のスケーリングとベンチマーク 0.86
representation learning. In: ICCV (2019) 8 表現学習。 In:ICCV (2019) 8 0.71
[23] Grill, J.B., Strub, F., Altché, F., Tallec, C., Richemond, P., Buchatskaya, E., Doersch, C., Avila Pires, B., Guo, Z., Gheshlaghi Azar, M., et al : Bootstrap your own latent-a new approach to self-supervised learning. 523] Grill, J.B., Strub, F., Altché, F., Tallec, C., Richemond, P., Buchatskaya, E., Doersch, C., Avila Pires, B., Guo, Z., Gheshlaghi Azar, M., et al : Bootstrap your own latent-a new approach to self-supervised learning。 0.87
NeurIPS (2020) 1 NeurIPS (2020) 1 0.85
[24] He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised visual [24] he, k., fan, h., wu, y., xie, s., girshick, r.: 教師なし視覚のための運動量コントラスト 0.71
representation learning. In: CVPR (2020) 1, 2, 3, 6 表現学習。 in: cvpr (2020) 1, 2, 3, 6 0.65
[25] He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised visual [25]He,K.,Fan,H.,Wu,Y.,X ie,S.,Girshick,R.:教師なし視覚に対するモメンタムコントラスト 0.66
representation learning. In: CVPR (2020) 6, 8 表現学習。 in: cvpr (2020) 6, 8 0.64
11 11 0.85
英語(論文から抽出)日本語訳スコア
[26] He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. [26] he, k., zhang, x., ren, s., sun, j.: 画像認識のための深い残差学習。 0.74
In: CVPR (2016) 1, 3, 6 in: cvpr (2016) 1, 3, 6 0.71
[27] Hénaff, O.J., Koppula, S., Alayrac, J.B., Oord, A.v.d., Vinyals, O., Carreira, J.: Efficient visual Henaff, O.J., Koppula, S., Alayrac, J.B., Oord, A.v.d., Vinyals, O., Carreira, J. 0.77
pretraining with contrastive detection. コントラスト検出による事前学習。 0.61
arXiv preprint arXiv:2103.10957 (2021) 2, 3 arXiv preprint arXiv:2103.10957 (2021) 2, 3 0.84
[28] Hosang, J., Benenson, R., Dollár, P., Schiele, B.: What makes for effective detection proposals? 28] hosang, j., benenson, r., dollár, p., schiele, b.: 効果的な検出提案には何をもたらすのか? 0.81
TPAMI 38(4), 814–830 (2015) 3, 5 TPAMI 38(4), 814–830 (2015) 3, 5 0.91
[29] Hosang, J., Benenson, R., Schiele, B.: How good are detection proposals, really? [29]Hosang, J., Benenson, R., Schiele, B.: 検出提案は,本当にどの程度よいのでしょう? 0.89
arXiv preprint arXiv プレプリント 0.83
arXiv:1406.6962 (2014) 3, 5 arXiv:1406.6962 (2014) 3, 5 0.78
[30] Jeong, J., Lee, S., Kim, J., Kwak, N.: Consistency-based semi-supervised learning for object [30]Jeong,J.,Lee,S.,Kim, J.,Kwak,N.:一貫性に基づくオブジェクトの半教師あり学習 0.82
detection. In: nips (2019) 8 検出 in: nips (2019) 8 0.63
[31] Kang, B., Liu, Z., Wang, X., Yu, F., Feng, J., Darrell, T.: Few-shot object detection via feature [31] kang, b., liu, z., wang, x., yu, f., feng, j., darrell, t.: 機能による少数ショットオブジェクト検出
訳抜け防止モード: [31 ]Kang, B., Liu, Z., Wang, X. Yu , F. , Feng , J. , Darrell , T. : 特徴によるショットオブジェクト検出
0.90
reweighting. In: ICCV (2019) 8 再重み付け In:ICCV (2019) 8 0.68
[32] Krähenbühl, P., Koltun, V.: Geodesic object proposals. [32] Krähenbühl, P., Koltun, V.: 測地学的対象の提案。 0.82
In: ECCV. pp. 略称:ECCV。 pp. 0.73
725–739. Springer (2014) 725–739. Springer (複数形 Springers) 0.66
3 [33] Kuhn, H.W. 3 [33]Khn, H.W. 0.79
: The hungarian method for the assignment problem. : 代入問題に対するハンナリア法。 0.48
Naval research logistics quarterly 2(1-2), 83–97 (1955) 6 海軍研究物流 四半期 2(1-2), 83–97 (1955) 6 0.76
[34] Lin, T.Y., Goyal, P., Girshick, R., He, K., Dollár, P.: Focal loss for dense object detection. [34] lin, t.y., goyal, p., girshick, r., he, k., dollár, p.: 高密度物体検出のための焦点損失。 0.79
In: ICCV (2017) 6 院 ICCV (2017) 6 0.54
[35] Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L. [35] Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L。 0.93
: Microsoft coco: Common objects in context. : Microsoft Coco: コンテキスト内の共通オブジェクト。 0.84
In: ECCV. Springer (2014) 2, 6 略称:ECCV。 Springer (2014) 2, 6 0.73
[36] Liu, Y.C., Ma, C.Y., He, Z., Kuo, C.W., Chen, K., Zhang, P., Wu, B., Kira, Z., Vajda, P.: Unbiased teacher for semi-supervised object detection. [36] Liu, Y.C., Ma, C.Y., He, Z., Kuo, C.W., Chen, K., Zhang, P., Wu, B., Kira, Z., Vajda, P.: 半教師対象検出用無バイアス教師。 0.89
arXiv preprint arXiv:2102.09480 (2021) 8 arXiv preprint arXiv:2102.09480 (2021) 8 0.78
[37] Misra, I., Maaten, L.v.d. [37]Misra, I., Maaten, L.v.d. 0.86
: Self-supervised learning of pretext-invariant representations. プレテキスト不変表現の自己教師型学習 0.53
In: CVPR (2020) 8 院 CVPR (2020) 8 0.54
[38] Misra, I., Zitnick, C.L., Hebert, M.: Shuffle and learn: unsupervised learning using temporal [38]Misra, I., Zitnick, C.L., Hebert, M.: Shuffle and learn: unsupervised learning using temporal 0.95
order verification. In: ECCV. 注文確認 略称:ECCV。 0.53
Springer (2016) 3 Springer (2016) 3 0.85
[39] Nair, V., Hinton, G.E. [39]Nair, V., Hinton, G.E. 0.87
: Rectified linear units improve restricted boltzmann machines. :整流線形単位は制限ボルツマン機械を改善する。 0.70
In: ICML (2010) 6 in: icml (2010) 6 0.70
[40] Pathak, D., Krahenbuhl, P., Donahue, J., Darrell, T., Efros, A.A.: Context encoders: Feature [40]pathak, d., krahenbuhl, p., donahue, j., darrell, t., efros, a.a.: context encoders: feature 0.77
learning by inpainting. 絵を描くことで学びます 0.49
In: CVPR (2016) 3 in: cvpr (2016) 3 0.65
[41] Reed, C.J., Yue, X., Nrusimha, A., Ebrahimi, S., Vijaykumar, V., Mao, R., Li, B., Zhang, S., Guillory, D., Metzger, S., et al : Self-supervised pretraining improves self-supervised pretraining. [41] Reed, C.J., Yue, X., Nrusimha, A., Ebrahimi, S., Vijaykumar, V., Mao, R., Li, B., Zhang, S., Guillory, D., Metzger, S., et al : 自己監督型事前訓練は自己監督型事前訓練を改善する。 0.86
arXiv preprint arXiv:2103.12718 (2021) 3 arXiv preprint arXiv:2103.12718 (2021) 3 0.78
[42] Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: Generalized intersection over union: A metric and a loss for bounding box regression. [42] rezatofighi, h., tsoi, n., gwak, j., sadeghian, a., reid, i., savarese, s.: generalized intersection over union: a metric and a loss for bounding box regression。 0.73
In: CVPR (2019) 6 In:CVPR (2019) 6 0.79
[43] Roh, B., Shin, W., Kim, I., Kim, S.: Spatially consistent representation learning. [43] roh, b., shin, w., kim, i., kim, s.:空間的に一貫した表現学習。 0.77
arXiv preprint arXiv プレプリント 0.83
arXiv:2103.06122 (2021) 3 arXiv:2103.06122(202 1)3 0.68
[44] Van de Sande, K.E., Uijlings, J.R., Gevers, T., Smeulders, A.W. [44]Van de Sande, K.E., Uijlings, J.R., Gevers, T., Smeulders, A.W. 0.92
: Segmentation as selective セグメンテーション : 選択的セグメンテーション 0.75
search for object recognition. 物体の認識を探します 0.71
In: ICCV. IEEE (2011) 3 ICCV所属。 IEEE (2011) 3 0.68
[45] Sohn, K., Zhang, Z., Li, C.L., Zhang, H., Lee, C.Y., Pfister, T.: A simple semi-supervised [45] sohn, k., zhang, z., li, c.l., zhang, h., lee, c.y., pfister, t.: a simple semi-supervised. 0.78
learning framework for object detection. オブジェクト検出のための学習フレームワーク。 0.82
arXiv preprint arXiv:2005.04757 (2020) 8 arXiv preprint arXiv:2005.04757 (2020) 8 0.78
[46] Tian, Y., Krishnan, D., Isola, P.: Contrastive multiview coding. [46] Tian, Y., Krishnan, D., Isola, P.: 対照的なマルチビューコーディング。 0.83
arXiv preprint arXiv:1906.05849 arXiv preprint arXiv:1906.05849 0.59
(2019) 6 [47] Uijlings, J.R., Van De Sande, K.E., Gevers, T., Smeulders, A.W. (2019) 6 [47]Uijlings, J.R., Van De Sande, K.E., Gevers, T., Smeulders, A.W. 0.88
: Selective search for object recognition. 対象の選択的探索 認識 0.53
IJCV 104(2), 154–171 (2013) 2, 3, 9 IJCV 104(2), 154–171 (2013) 2, 3, 9 0.90
[48] Vincent, P., Larochelle, H., Bengio, Y., Manzagol, P.A. [48] Vincent, P., Larochelle, H., Bengio, Y., Manzagol, P.A. 0.94
: Extracting and composing robust features with denoising autoencoders. 抽出・構成の堅牢化 denoising autoencoderを備えた機能。 0.68
In: ICML (2008) 3 in: icml (2008) 3 0.65
[49] Wang, X., Huang, T.E., Darrell, T., Gonzalez, J.E., Yu, F.: Frustratingly simple few-shot object [49]Wang,X.,Huang,T.E.,D arrell,T.,Gonzalez,J .E.,Yu,F.:イライラするほど単純な小ショットオブジェクト
訳抜け防止モード: [49 ] Wang, X., Huang, T.E., Darrell, T., Gonzalez , J.E. , Yu , F. : フラストレーションに単純な少数ショットオブジェクト
0.82
detection. arXiv preprint arXiv:2003.06957 (2020) 8 検出 arXiv preprint arXiv:2003.06957 (2020) 8 0.62
12 12 0.85
英語(論文から抽出)日本語訳スコア
[50] Wang, X., Zhang, R., Shen, C., Kong, T., Li, L.: Dense contrastive learning for self-supervised [50] Wang, X., Zhang, R., Shen, C., Kong, T., Li, L.:Dense contrastive learning for self-supervised 0.92
visual pre-training. arXiv preprint arXiv:2011.09157 (2020) 8 視覚前訓練。 arXiv preprint arXiv:2011.09157 (2020) 8 0.74
[51] Wang, Y.X., Ramanan, D., Hebert, M.: Meta-learning to detect rare objects. [51] Wang, Y.X., Ramanan, D., Hebert, M.: 希少物体を検出するメタラーニング。 0.78
In: Proceedings of In:Proceedings of 0.66
the IEEE International Conference on Computer Vision. IEEE International Conference on Computer Vision に参加。 0.89
pp. 9925–9934 (2019) 8 pp. 9925–9934 (2019) 8 0.87
[52] Wu, Z., Xiong, Y., Yu, S.X., Lin, D.: Unsupervised feature learning via non-parametric instance discrimination. [52]Wu,Z.,Xiong,Y.,Yu,S. X.,Lin,D.:非パラメトリックなインスタンス識別による教師なし特徴学習。 0.70
In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. In: IEEE Conference on Computer Vision and Pattern Recognitionの開催。 0.72
pp. 3733–3742 (2018) 2, 8 pp. 3733–3742 (2018) 2, 8 0.90
[53] Xiao, T., Reed, C.J., Wang, X., Keutzer, K., Darrell, T.: Region similarity representation [53]Xiao, T., Reed, C.J., Wang, X., Keutzer, K., Darrell, T.: Region similarity representation 0.92
learning. arXiv preprint arXiv:2103.12902 (2021) 3, 6, 8 学ぶこと。 arXiv preprint arXiv:2103.12902 (2021) 3, 6, 8 0.77
[54] Xiao, T., Wang, X., Efros, A.A., Darrell, T.: What should not be contrastive in contrastive [54]Xiao,T.,Wang,X.,Efro s,A.A.,Darrell,T.:対照的に対比すべきでないこと 0.79
learning. arXiv preprint arXiv:2008.05659 (2020) 6 学ぶこと。 arXiv preprint arXiv:2008.05659 (2020) 6 0.72
[55] Xie, E., Ding, J., Wang, W., Zhan, X., Xu, H., Li, Z., Luo, P.: Detco: Unsupervised contrastive [55]Xie, E., Ding, J., Wang, W., Zhan, X., Xu, H., Li, Z., Luo, P.: Detco: Unsupervised contrastive 0.87
learning for object detection. オブジェクト検出のための学習。 0.79
arXiv preprint arXiv:2102.04803 (2021) 3, 6, 8 arXiv preprint arXiv:2102.04803 (2021) 3, 6, 8 0.88
[56] Yan, X., Chen, Z., Xu, A., Wang, X., Liang, X., Lin, L.: Meta r-cnn: Towards general solver for instance-level low-shot learning. 56] Yan, X., Chen, Z., Xu, A., Wang, X., Liang, X., Lin, L.: Meta r-cnn: インスタンスレベルのローショット学習の一般的な解法を目指して。 0.88
In: Proceedings of the IEEE International Conference on Computer Vision. In: Proceedings of the IEEE International Conference on Computer Vision 0.74
pp. 9577–9586 (2019) 8 pp. 9577–9586 (2019) 8 0.87
[57] Zhang, G., Luo, Z., Cui, K., Lu, S.: Meta-detr: Few-shot object detection via unified image-level [57]Zhang,G.,Luo,Z.,Cui, K.,Lu,S.:Meta-detr:統一イメージレベルによるFew-shotオブジェクト検出 0.82
meta-learning. arXiv preprint arXiv:2103.11731 (2021) 8 メタ学習。 arXiv preprint arXiv:2103.11731 (2021) 8 0.72
[58] Zhang, R., Isola, P., Efros, A.A.: Colorful image colorization. [58]Zhang, R., Isola, P., Efros, A.A.:カラーフルイメージカラー化。 0.83
In: ECCV. Springer (2016) 3 [59] Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: Deformable transformers 略称:ECCV。 Springer (2016) 3 [59] Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: Deformable transformer 0.74
for end-to-end object detection. エンドツーエンドのオブジェクト検出。 0.64
arXiv preprint arXiv:2010.04159 (2020) 2, 3, 4, 5, 6, 7, 9 arXiv preprint arXiv:2010.04159 (2020) 2, 3, 4, 5, 6, 7, 9 0.98
[60] Zitnick, C.L., Dollár, P.: Edge boxes: Locating object proposals from edges. [60] zitnick, c.l., dollár, p.: edge box: エッジからオブジェクトの提案を見つける。 0.79
In: ECCV. Springer 略称:ECCV。 Springer 0.73
(2014) 3 13 (2014) 3 13 0.85
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。