論文の概要、ライセンス

# (参考訳) 開語彙物体検出のための局所視覚言語マッチング [全文訳有]

Localized Vision-Language Matching for Open-vocabulary Object Detection ( http://arxiv.org/abs/2205.06160v1 )

ライセンス: CC BY 4.0
Maria A. Bravo, Sudhanshu Mittal and Thomas Brox(参考訳) 本研究では,画像とキャプチャのペアに基づいて,既知のクラス群とともに新しいオブジェクトクラスを検出することを学ぶオープンワールドオブジェクト検出手法を提案する。 これは、まず位置誘導画像キャプチャマッチング技術を用いて、新しいクラスと既知のクラスの両方のクラスラベルを弱教師付きで学習し、次に、既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを専門化する2段階の訓練手法である。 単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。 さらに,画像キャプチャ対情報を活用するための一貫性正規化手法を提案する。 提案手法は,既存のオープンワールド検出手法と比較して,データ効率が良い。

In this work, we propose an open-world object detection method that, based on image-caption pairs, learns to detect novel object classes along with a given set of known classes. It is a two-stage training approach that first uses a location-guided image-caption matching technique to learn class labels for both novel and known classes in a weakly-supervised manner and second specializes the model for the object detection task using known class annotations. We show that a simple language model fits better than a large contextualized language model for detecting novel objects. Moreover, we introduce a consistency-regulari zation technique to better exploit image-caption pair information. Our method compares favorably to existing open-world detection approaches while being data-efficient.
公開日: Thu, 12 May 2022 15:34:37 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Localized Vision-Language Matching for Open-vocabulary Object Detection 開語彙物体検出のための局所視覚言語マッチング 0.67
Mar´ıa A. Bravo Mar ́ıa A. Bravo 0.34
{bravoma,mittal,brox}@cs.uni-freiburg.de bbvoma,mittal,brox}@cs.uni-freiburg.de 0.34
Sudhanshu Mittal Thomas Brox スダンシュミタル トーマス・ブロックス 0.32
University of Freiburg, Germany ドイツ、フライブルク大学 0.60
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 0 6 1 6 0 1 v 0 6 1 6 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract In this work, we propose an open-world object detection method that, based on image-caption pairs, learns to detect novel object classes along with a given set of known classes. 概要 本研究では,画像とキャプチャのペアに基づいて,既知のクラス群とともに新しいオブジェクトクラスを検出することを学ぶオープンワールドオブジェクト検出手法を提案する。 0.65
It is a two-stage training approach that first uses a location-guided image-caption matching technique to learn class labels for both novel and known classes in a weaklysupervised manner and second specializes the model for the object detection task using known class annotations. これは、まず位置誘導画像キャプチャマッチング技術を用いて、新しいクラスと既知のクラスの両方のクラスラベルを弱教師付きで学習し、次に、既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを専門化する2段階の訓練手法である。 0.66
We show that a simple language model fits better than a large contextualized language model for detecting novel objects. 単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。 0.78
Moreover, we introduce a consistency-regulari zation technique to better exploit image-caption pair information. さらに,画像キャプチャ対情報を活用するための一貫性正規化手法を提案する。 0.59
Our method compares favorably to existing open-world detection approaches while being data-efficient. 提案手法は,既存のオープンワールド検出手法と比較して,データ効率が良い。 0.63
1. Introduction Recent advances in deep learning have rapidly advanced the state-of-the-art object detection algorithms. はじめに ディープラーニングの最近の進歩は、最先端のオブジェクト検出アルゴリズムを急速に進歩させている。 0.45
The best mean average precision score on the popular COCO [24] benchmark has improved from 40 mAP to over 60 mAP in less than 4 years. 人気の高いCOCO[24]ベンチマークの平均精度スコアは4年足らずで40mAPから60mAPを超えた。 0.58
However, this success required large datasets with annotations at the bounding box level and was a achieved in a closed-world setting, where the number of classes is assumed to be fixed. しかし、この成功には境界ボックスレベルでアノテーションを持つ大規模なデータセットが必要であり、クラス数が固定されていると想定されるクローズドワールド設定で達成された。 0.67
The closed-world setting restricts the object detector to only discover known annotated objects and annotating all possible objects in the world is infeasible due to high labeling costs. クローズドワールド設定では、オブジェクト検出器は既知の注釈付きオブジェクトのみを発見でき、高いラベリングコストのために世界中のすべてのオブジェクトに注釈を付けることは不可能である。
訳抜け防止モード: 閉世界設定は物体検出器を制限する 既知の注釈付きオブジェクトを 発見するだけで 高いラベル付けコストで 実現できません
0.72
Therefore, research of open-world detectors, which can also discover unmarked objects, has recently come into focus [13, 41, 44]. そのため、マークのない物体も発見できるオープンワールド検出器の研究が最近注目されている[13, 41, 44]。 0.78
To learn a visual concept, humans receive the majority of the supervision in the form of narrations rather than class tags and bounding boxes. 視覚的な概念を学ぶために、人間はクラスタグやバウンドボックスではなくナレーションの形で監督を受ける。
訳抜け防止モード: 視覚概念を学ぶには 人間は、クラスタグやバウンディングボックスではなく、ナレーションという形で、監督のほとんどを受け取ります。
0.67
Consider the example of Figure 1 together with the annotations of mouse and tv only. 図1の例をマウスとテレビのみのアノテーションと一緒に考えてみましょう。 0.81
Even after learning to detect these objects, finding and identifying the keyboard without any other source of information is ambitious. これらの物体を検知したとしても、他の情報源のないキーボードを見つけて識別することは野心的だ。 0.59
Instead, if we consider the image together with the caption - “A mouse, keyboard, and a monitor on a desk”, it is possible to identify that the other salient object in the その代わり、“マウス、キーボード、そして机の上のモニター”というキャプションと一緒に画像を考えると、他の有能な物体が机にあることを識別できる。 0.64
(a) SOTA method comparison (a) sota法の比較 0.70
(b) GT (c) ZSD (b)GT (c)ZSD 0.38
(d) LocOv Figure 1. (d) LocOv 図1に示す。 0.50
Open-vocabulary object detection. オープン語彙オブジェクト検出。 0.76
(a) Compares our method LocOv with the baseline method (OVR) and our zeroshot baseline STT-ZSD (ZSD). (a)本手法をベースライン法(OVR)およびゼロショットベースラインSTT-ZSD(ZSD)と比較する。 0.74
LocOv improves on both novel and known classes without dropping the performance on known classes. LocOvは、既知のクラスのパフォーマンスを落とさずに、新しいクラスと既知のクラスの両方を改善する。 0.55
The zero-shot method, only trained with known classes, obtains low performance (< 0.5 mAP) on novel classes. ゼロショット法は、既知のクラスでのみ訓練され、新しいクラスでの低性能(< 0.5 mAP)を得る。 0.68
(b-d) LocOv is able to detect the novel object ‘keyboard’ along with known objects, shown in figure. (b-d) LocOvは、新しいオブジェクト‘キーボード’を、既知のオブジェクトとともに検出することができる。 0.53
image is very likely a keyboard. 画像はキーボードの可能性が高い。 0.77
This process involves successful localization of the objects in the scene, identification of different nouns in the narrated sentence, and matching the two together. このプロセスでは、シーン内のオブジェクトのローカライゼーションが成功し、ナレーション文中の異なる名詞を識別し、その2つをマッチングする。 0.73
Exploiting the extensive semantic knowledge contained in natural language is a reasonable step towards learning such open-world models without expensive annotation costs. 自然言語に含まれる広範な意味知識を爆発させることは、高価なアノテーションコストなしでそのようなオープンワールドモデルを学ぶための合理的なステップである。
訳抜け防止モード: 自然言語に含まれる広範囲な意味知識の探索 合理的な一歩です 高価なアノテーションのないオープンな世界モデルを学ぶこと。
0.66
In this work, we aim to enable such learning of novel objects using image-caption pairs. 本研究では,イメージキャプションペアを用いた新しい物体の学習を実現することを目的とする。 0.65
Along with image-caption pairs, the detection model is provided with bounding box annotations for a limited set of classes. イメージキャプチャペアに加えて、検出モデルは制限されたクラスのセットに対するバウンディングボックスアノテーションを備える。 0.80
We follow the problem setting as introduced by Zareian et al [41]. Zareian et al [41] によって導入された問題設定に従う。 0.76
They refer 参照 0.33
英語(論文から抽出)日本語訳スコア
to this problem as Open-vocabulary Object Detection. Open-vocabulary Object Detection としてこの問題に対処する。 0.62
There are two major challenges to this problem: First, image-caption pairs themselves are too weak to learn localized object-regions. この問題には2つの大きな課題がある: まず、イメージキャプションペア自体が、ローカライズされたオブジェクトリージョンを学ぶには弱すぎる。 0.54
Analyzing previous works, we find that randomly sampled feature maps provide imprecise visual grounding for foreground objects, therefore they receive insufficient supervisory signals to learn object properties. 先行研究を解析した結果,ランダムにサンプリングされた特徴マップは前景の視覚的な接地が不正確であることに気づき,対象特性の学習に十分な監視信号が得られなかった。 0.54
Second, the granularity of the information captured by image-region features should align with the level of information captured by the text representation for an effective matching. 第二に、画像領域の特徴によって捉えた情報の粒度は、テキスト表現によって捉えた情報のレベルと一致して、効果的なマッチングを行う必要がある。 0.58
For example, it would be ill-suited to match a text representation that captures global image information with image features that capture localized information. 例えば、グローバル画像情報をキャプチャするテキスト表現と、ローカライズされた情報をキャプチャする画像特徴とをマッチさせるのに適している。 0.68
In this work, we propose a method that improves the matching between image and text representations, targeted towards improving open-world object detection. 本研究では,オープンワールドオブジェクト検出の改善を目的とした画像表現とテキスト表現のマッチングを改善する手法を提案する。 0.79
Our model is a two-stage approach: in the first stage, Localized Semantic Matching (LSM), it learns semantics of objects in the image by matching image-regions to the words in the caption; and in the second stage, Specialized Task Tuning (STT), it learns specialized visual features for the target object detection task using known object annotations. 第1段階では、画像領域とキャプション中の単語をマッチングして、画像内のオブジェクトの意味を学習し、第2段階では、特殊タスクチューニング(stt)により、既知のオブジェクトアノテーションを使用して、対象オブジェクト検出タスクの特殊視覚特徴を学習する。
訳抜け防止モード: 私たちのモデルは2段階のアプローチです。 局所意味マッチング (Localized Semantic Matching, LSM) は、画像とキャプション内の単語の領域をマッチングすることで、画像内のオブジェクトのセマンティクスを学習する。 そして第2段階では、特別タスクチューニング(STT)です。 既知のオブジェクトアノテーションを使用して、ターゲットオブジェクト検出タスクの特別な視覚的特徴を学習する。
0.76
We called our method LocOv for Localized Image-Caption Matching for Open-vocabulary. オープン語彙の局所化画像キャプションマッチングをLocOvと呼ぶ。 0.66
For the given objects in an image, our goal is to project them to a feature space where they can be matched with their corresponding class in the form of text embeddings. イメージ内の与えられたオブジェクトに対して、私たちの目標は、テキスト埋め込みの形で対応するクラスとマッチング可能な機能空間にそれらを投影することにあります。 0.81
We find that simple text embeddings are better candidates for matching object representations than contextualized embeddings produced by large-scale language models. 大規模言語モデルにより生成された文脈的埋め込みよりも,単純なテキスト埋め込みの方がオブジェクト表現のマッチングに適していることがわかった。 0.59
Using image-caption pairs as weak supervision for object detection requires the understanding of both modalities in a fine and a coarse way. 画像キャプチャ対をオブジェクト検出の弱い監視として使用するには、微妙かつ粗い方法でのモダリティの両方を理解する必要がある。 0.66
This can be obtained by processing each modality independently in a uni-modal fashion and then matching, or using cross-modal attention to process them together. これは、各モダリティをユニモーダルな方法で独立に処理し、マッチングし、あるいはクロスモーダルな注意を使って処理することで得られる。 0.63
To ensure consistent training between the uni-modal and cross-modal methods, we propose a consistency-regulari zation between the two matching scores. 単モーダル法とクロスモーダル法の整合性を確保するため,両スコア間の整合性規則化を提案する。 0.63
To summarize, our contributions are: (1) We introduced localized-regions during the image-caption matching stage to improve visual feature learning of objects. 要約すると,1) 画像キャプションマッチング段階において,物体の視覚的特徴学習を改善するために局所領域を導入した。 0.71
(2) We show that simplified text embeddings match better with identified object features as compared to contextualized text embeddings. 2) 簡易テキスト埋め込みは, コンテキスト化されたテキスト埋め込みに比べて, 識別されたオブジェクトの特徴に合致することを示す。 0.71
(3) We propose a consistency regularization technique to ensure effective cross-modal training. 3) 効果的なクロスモーダルトレーニングを実現するための一貫性正規化手法を提案する。 0.66
These three contributions allow LocOv to be not only competitive against state-of-the-art models but also dataefficient by using less than 0.6 million image-caption pairs for training, ∼700 times smaller than CLIP-based methods. これらの3つのコントリビューションにより、LocOvは最先端のモデルと競合するだけでなく、トレーニングに0.6百万イメージキャプチャペアを使用すればデータ効率も向上する。 0.59
Additionally, we define an open-vocabulary object detection setup based on the VAW [29] dataset, which offers challenging learning conditions like few-instances per object and a long-tailed distribution. さらに,VAW[29]データセットをベースとしたオープン語彙オブジェクト検出設定を定義し,オブジェクト単位のインスタンス数や長い尾の分布など,困難な学習条件を提供する。 0.75
Based on the above mentioned three contributions, we show that our method achieves state-of-the-art performance on both openvocabulary object detection benchmarks, COCO and VAW. ベースとなるのは 以上の3つの貢献により,提案手法はopenvocabulary object detection benchmarks,coco,vawにおいて最先端のパフォーマンスを達成していることが示された。 0.53
Source code will be released upon publication. ソースコードは公開時に公開される。 0.73
2. Related Work Object detection with limited supervision Full annotations for object detection include bounding box coordinates and class labels for each object instance. 2.関連業務 限定監督によるオブジェクト検出 オブジェクト検出のための完全なアノテーションには、各オブジェクトインスタンスのバウンディングボックス座標とクラスラベルが含まれる。 0.76
Semi-supervised (SSOD) [17, 25, 35] and weakly-supervised (WSOD) [4, 8, 20] object detection are two widely explored approaches to reduce the annotation cost. アノテーションのコストを削減するため,半教師付き (SSOD) [17, 25, 35] と弱教師付き (WSOD) [4, 8, 20] オブジェクト検出は広く研究されている2つのアプローチである。 0.70
WSOD approaches aim to learn object localization based on image-level labels only. WSODアプローチは、画像レベルのラベルのみに基づいてオブジェクトのローカライゼーションを学ぶことを目的としている。 0.47
Major challenges in WSOD approaches include differentiation between object instances [33] and precisely locating the entire objects. WSODアプローチの主な課題は、オブジェクトインスタンス間の分化[33]と、オブジェクト全体を正確に配置することである。 0.67
SSOD approaches use a small fully-annotated set and a large set of unlabeled images to learn to generalize. ssodのアプローチは、小さな完全な注釈付きセットと大きなラベルのないイメージセットを使用して一般化を学習する。 0.60
Best SSOD [25, 35] methods are based on pseudo-labeling, which usually suffers from foreground-backgroun d imbalance and overfitting on the labeled set of images. 最良のssod [25, 35]法は擬似ラベルに基づいており、通常は前景と後景の不均衡とラベル付き画像群への過剰フィットに苦しむ。 0.59
In this work, we address a problem which shares similar challenges with the WSOD and SSOD approaches, however they are limited to a closed-world setting, where the number of classes is predefined and fixed. 本稿では,WSOD や SSOD のアプローチと同じような課題を共用する問題に対処するが,クラス数が事前に定義され固定されたクローズドワールド設定に限られる。 0.70
Our method addresses a mixed semi- and weakly-supervised object detection problem where the objective is open-world object detection. 本手法は,オープンワールドオブジェクト検出を対象とする半・弱制御オブジェクト検出問題に対処する。 0.75
Multi-modal visual and language models. マルチモーダル視覚モデルと言語モデル。 0.82
Over the past years, multiple works have centered their attention on the intersection of vision and language by exploiting their consistent semantic information contained in matching pairs. 過去数年間、複数の作品が、一致するペアに含まれる一貫性のある意味情報を活用し、視覚と言語の交点に注意を向けてきた。 0.62
The success of using this pairwise information has proved to be useful for pre-training transformer-like models for various vision-language tasks [6, 22, 26, 36, 37, 42, 45] which process the information jointly using cross-attention. このペアワイズ情報を用いた成功例は,多種多様な視覚言語タスク [6, 22, 26, 36, 37, 42, 45] に対するトランスフォーマー様モデルの事前学習に有用であることが証明された。 0.78
Other approaches [11,12,19,27,30,38], centered on the vision and language retrieval task use separate encoders for each modality, in a uni-modal fashion. ビジョンと言語検索タスクを中心とした他のアプローチ [11,12,19,27,30,38] では、各モダリティに対して、ユニモーダルな方法で別々のエンコーダを使用する。 0.53
These models give the flexibility to transfer the knowledge learned by the pairwise information to single modality tasks, which is the case of object detection. これらのモデルは、一対の情報によって学習された知識を単一のモダリティタスクに転送する柔軟性を与える。 0.75
In particular Miech et al [27] showed that combining a cross-attention model with two uni-modal encoders is beneficial for large-scale retrieval tasks. 特に Miech et al [27] は,2つのユニモーダルエンコーダとクロスアテンションモデルを組み合わせることで,大規模な検索作業に有用であることを示した。
訳抜け防止モード: 特に Miech et al [ 27 ] は クロスアテンションモデルと2つのユニモーダルエンコーダを組み合わせる 大規模な検索タスクには有益です。
0.73
In this paper, we combine the strengths of both types of approaches to train a model using different consistency losses that exploit the information contained in image-caption pairs. 本稿では,画像キャプチャペアに含まれる情報を利用する異なる一貫性損失を用いてモデルを訓練するための,両方の手法の長所を組み合わせる。 0.81
Language-guided object detection. 言語誘導オブジェクト検出。 0.85
Zero-shot object detection methods learn to align proposed object-region features to the class-text embeddings. ゼロショットオブジェクト検出メソッドは、提案されているオブジェクト領域機能をクラステキスト埋め込みに合わせることを学ぶ。 0.62
Bansal et al [2] is among the first to propose the zero-shot object detection problem. bansal et al [2] はゼロショット物体検出問題の最初の提案である。 0.70
They identified that the main challenge in ZSD is to separate the background class from the novel objects. ZSDの主な課題は、バックグラウンドクラスを新しいオブジェクトから分離することである。 0.56
Zhu et al [46] trained a generative model to “hallucinate” (synthesize visual features) unseen classes and used these Zhu et al [46] は生成モデルを訓練し、"幻覚"(視覚的特徴の合成)を未確認の授業に使用した。 0.69
英語(論文から抽出)日本語訳スコア
Figure 2. Overview of LocOv . 図2。 LocOvの概要 0.63
It is a two-stage model: (1) Localized Semantic Matching stage trains a Faster R-CNN-based model to match corresponding image-caption pairs using a grounding loss LG. 1)ローカライズされたセマンティックマッチングステージは、接地損失LGを用いて対応する画像キャプチャペアをマッチングするために、より高速なR-CNNベースのモデルを訓練する。
訳抜け防止モード: 2段モデル : (1 ) 局部化セマンティックマッチングステージ列車 高速R-CNN-ベースモデル。 接地損失LGを使用して対応するイメージ-キャプションペアを一致させる。
0.69
We exploit the multi-modal information by using a cross-attention model and applying an Image-Caption matching loss LICM , the mask language modeling loss LM LM and a consistency-regulari zation loss LCons. 本稿では,クロスアテンションモデルを用いて,イメージキャプチャマッチング損失licm,マスク言語モデリング損失lm,一貫性レギュライゼーション損失lconを適用し,マルチモーダル情報を活用する。 0.75
(2) Specialized Task Tuning stage tunes the model using a labeled set of known objects with bounding box annotations and specializes the model for the task of object detection. (2)特殊タスクチューニングステージは、境界ボックスアノテーション付きの既知のオブジェクトのラベル付きセットを使用してモデルをチューニングし、オブジェクト検出タスクのモデルを専門化する。 0.83
See Section 3 for details. 詳細は第3節を参照。 0.62
generated features during training to be able to distinguish novel objects from background. 新たなオブジェクトとバックグラウンドを区別できるトレーニング中に生成された機能。 0.77
Rahman et al [31] proposed a polarity loss to handle foreground-backgroun d imbalance and to improve visual-semantic alignment. Rahman et al [31] は、前景と背景のアンバランスに対処し、視覚とセマンティックアライメントを改善するために、極性損失を提案した。 0.52
However, such methods fail to perform well on the novel classes since the detection model has never seen these novel objects, and semantics learned by matching known object-text embeddings does not extrapolate to novel classes. しかし、検出モデルはこれらの新しいオブジェクトを見たことがなく、既知のオブジェクト-テキストの埋め込みにマッチして学習した意味論は、新しいクラスには当てはまらないため、そのような手法は新規クラスでうまく機能しない。 0.60
To learn the semantics of novel classes, recent methods [3,13,16,41,44] have simplified the problem by providing image-caption pairs as a weak supervision signal. 新たなクラスのセマンティクスを学習するために,近年の手法 [3,13,16,41,44] では,イメージキャプションペアを弱い監視信号として提供することにより,問題を単純化している。 0.53
Such pairs are cheap to acquire and make the problem tractable. このようなペアは安く入手でき、問題を解決できる。 0.66
Image-caption pairs allow the model to observe a large set of object categories along with object labels. イメージキャプチャペアは、モデルがオブジェクトラベルとともに大きなオブジェクトカテゴリのセットを観察することを可能にする。 0.70
Most of these methods require big dataset with millions of image-caption pairs to train such a model. これらのメソッドのほとんどは、そのようなモデルをトレーニングするために、何百万ものイメージキャプチャペアを持つbig datasetが必要です。 0.50
They either use this model to align image-regions with captions and generate object-box pseudo labels [16, 44] or as region-image feature extractor to classify the regions [13]. 画像領域をキャプションと整列させ、オブジェクトボックスの擬似ラベル[16,44]を生成するか、領域を分類するために領域イメージ特徴抽出器として使用する。 0.71
Many weakly-supervised [1, 3, 7, 34, 43] approaches have been proposed to perform such object grounding. このような物体の接地を行うために、多くの弱教師付き [1, 3, 7, 34, 43] アプローチが提案されている。
訳抜け防止モード: 多くの弱い-監督[1, 3, 7, 34, 43 ] このような物体接地を行う手法が提案されている。
0.61
Due to the large performance gap between zero-shot/weakly-sup ervised and fully-supervised approaches for object detection, Zareian et al [41] introduced an open-vocabulary problem formulation. zero-shot/weakly-sup ervised と full-supervised のオブジェクト検出における大きなパフォーマンスギャップのため、zareianら [41] はオープンボキャブラリー問題の定式化を導入した。 0.62
It utilizes extra image-caption pairs to learn to detect both known and novel objects. 追加のイメージキャプチャーペアを使用して、既知のオブジェクトと新しいオブジェクトの両方を検出する。 0.60
Their approach matches all parts of the image with the caption, whereas we emphasize object localized re- 彼らのアプローチは画像のすべての部分とキャプションを一致させるが、オブジェクトの局所化は強調する。 0.55
gions and a consistency loss to enforce more object-centric matching. gionsと一貫性の損失により、オブジェクト中心のマッチングが強化される。 0.50
Moreover, we use a simplified text embedding, which has a favorable effect. さらに,テキスト埋め込みが簡易化されており,その効果は良好である。 0.67
3. Method We propose a two-stage approach for the task of openworld object detection as shown in Figure 2. 3.方法 図2に示すように、openworldオブジェクト検出タスクのための2段階のアプローチを提案する。 0.60
The first stage, Localized Semantic Matching (LSM), learns to match objects in the image to their corresponding class labels in the caption in a weakly-supervised manner. 第1段階であるLocalized Semantic Matching (LSM)は、イメージ内のオブジェクトと、キャプション内の対応するクラスラベルとを弱教師付きでマッチングすることを学ぶ。 0.79
The second stage, Specialized Task Tuning (STT) stage, includes specialized training for the downstream task of object detection. 第2段階である特殊タスクチューニング(stt)ステージには、オブジェクト検出のダウンストリームタスクのための特別なトレーニングが含まれている。 0.71
We consider two sets of object classes: known classes OK and novel classes ON . 既知のクラス OK と新しいクラス ON の2つのオブジェクトクラスを考えます。 0.67
Bounding box annotations, including class labels, are available for known classes whereas there are no annotations for the novel classes. クラスラベルを含む境界ボックスアノテーションは既知のクラスで利用可能だが、新しいクラスにはアノテーションがない。 0.67
The LSM receives image-caption pairs (I, C) as input, where the caption provides the weak supervision to different image-regions. LSMは画像キャプチャペア(I,C)を入力として受け取り、キャプションは異なる画像領域に対する弱い監督を提供する。 0.64
Captions contain rich information which often include words corresponding to object classes from both known and novel sets. キャプションには豊富な情報が含まれており、しばしば既知のセットと新しいセットの両方のオブジェクトクラスに対応する単語を含んでいる。 0.56
Captions are processed using a pre-trained text-embedding model (e g BERT [10] embedding) to produce word or part-of-word features. キャプションは、事前訓練されたテキスト埋め込みモデル(例えばBERT[10]埋め込み)を使用して処理され、単語や単語の一部を生成する。 0.58
Images are processed using an object detection network (Faster RCNN [32]) to obtain object region features. 画像はオブジェクト検出ネットワーク(Faster RCNN[32])を用いて処理され、オブジェクト領域の特徴を得る。 0.91
We propose to utilize an object proposal generator OLN [18] to provide オブジェクト提案ジェネレータOLN[18]を応用して提案する。 0.67
英語(論文から抽出)日本語訳スコア
regions as pseudo-labels to train the Faster R-CNN. Faster R-CNNをトレーニングするための擬似ラベルとしてのリージョン。 0.48
This helps obtaining object-rich regions which improve image region-caption matching. これにより、画像領域のキャプションマッチングを改善するオブジェクトリッチな領域を得るのに役立つ。 0.45
This way, during the LSM our model learns to match all present objects in the image in a class-agnostic way. このようにして、LSMの間、我々のモデルは、クラスに依存しない方法で、画像にあるすべてのオブジェクトと一致することを学習する。 0.52
See Section 3.1 for details. 詳細は3.1節を参照。 0.60
The STT stage tunes the Faster R-CNN using known object annotations primarily to distinguish foreground from background and learns corresponding precise location of the foreground objects. STTステージは、主に前景と背景を区別するために既知のオブジェクトアノテーションを使用してFaster R-CNNをチューニングし、前景の正確な位置を学習する。 0.66
See Section 3.2 for details. 詳細は3.2節を参照。 0.61
3.1. Localized Semantic Matching (LSM) 3.1. 局所的意味マッチング(lsm) 0.52
The proposed LSM stage consists of three main components: (1) localized object region-text matching, (2) disentangled text features and (3) consistency-regulari zation. 提案するLSMステージは,(1)局所オブジェクト領域テキストマッチング,(2)不整合テキスト特徴,(3)整合正規化の3つの主要コンポーネントから構成される。 0.76
Localized object region-text matching. 局所オブジェクト領域テキストマッチング。 0.78
Given the sets RI = { r : r is an image-region feature vector from the image I} and W C = { w : w is a word or part-of-word feature vector from the caption C}, we calculate the similarity score between an image and a caption in a fine-grained manner, by comparing image-regions with words, since our final objective is to recognize objects in regions. 集合 RI = { r : r が画像 I} からの画像領域特徴ベクトルであり、W C = { w : w がキャプション C} から単語または単語の特徴ベクトルであることを考えると、画像領域とキャプションとの類似度スコアを、画像領域と単語を比較して、きめ細かい方法で計算する。
訳抜け防止モード: 集合 ri = { r : r が与えられたとき、像 i から像-領域特徴ベクトルとなる。 and w c = { w : w is a word or part - of - word feature vector from the caption c },, 画像と字幕の類似度スコアを細かな方法で算出する。 画像領域と単語を比較することで 最後の目標は、領域内のオブジェクトを認識することです。
0.77
The image is processed using a Faster R-CNN model and a projection layer that maps image-regions into the text-embedding feature space. 画像はより高速なr-cnnモデルと、テキスト埋め込み機能空間に画像領域をマッピングする投影層を使って処理される。 0.70
The similarity score is calculated by taking an image composed of |RI| region features and a caption composed of |W C| part-of-word features by: 類似度スコアは、|RI|領域特徴からなる画像と、|W C|部分単語特徴からなるキャプションとを用いて算出される。 0.75
sim(I, C) = sim(I, C) = 0.43
1 |RI| where di,j corresponds to: 1 |RI| di,j は 0.34
d(ri, wj) = di,j = d(ri, wj) = di,j = 0.42
|RI|(cid:88) |RI|(cid:88) 0.33
|W C|(cid:88) |W C|(cid:88) 0.35
di,j(ri · wj) di,j(ri · wj) 0.43
i=1 j=1 i=1 である。 j=1 0.30
(cid:80)|W C| exp(ri · wj) j(cid:48)=1 exp(ri · wj(cid:48)) (cid:80)|W C| exp(ri · wj) j(cid:48)=1 exp(ri · wj(cid:48)) 0.44
. (1) (2) (3) . (1) (2) (3) 0.43
(cid:80) Based on the similarity score (Eq. 1) , we apply a contrastive learning objective to match the corresponding pairs together by considering all other pairs in the batch as negative pairs. (cid:80) 類似度スコア(eq.1)に基づいて、バッチ内の他の全てのペアを負のペアとして考慮し、対応するペアをマッチングするために対比学習目標を適用する。 0.56
We define this grounding loss as: この接地損失を次のように定義する。 0.54
LG(I) = − log LG(I) = − log 0.43
exp(sim(I, C)) exp(sim(I, C)) 0.43
C(cid:48)∈Batch exp(sim(I, C(cid:48))) C(cid:48)・Batch exp(sim(I, C(cid:48)) 0.46
We apply this loss in a symmetrical way, where each image in the batch is compared to all captions in the batch (Eq. 3) and each caption is compared to all images in the batch LG(C). この損失を対称的に適用し、バッチ内の各画像がバッチ内の全てのキャプションと比較され(eq.3)、各キャプションがバッチlg(c)内の全画像と比較される。 0.71
We consider two types of image-regions: box-regions and grid-regions. 画像領域にはbox-regionsとgrid-regionsの2種類がある。 0.61
Box-region features are obtained naturally using the region of interest pooling (RPN) from the Faster R-CNN. ボックス領域の特徴は、Faster R-CNNの利子プール(RPN)領域を用いて自然に得られる。 0.69
We make use of the pre-trained object proposal generator (OLN) to train the Faster-RCNN network. 我々は、事前訓練されたオブジェクト提案生成器(OLN)を用いて、Faster-RCNNネットワークをトレーニングする。 0.67
OLN is a class-agnostic object proposal generator which estimates all objects in the image with a high average recall rate. OLNは、画像内の全てのオブジェクトを高い平均リコールレートで推定する、クラスに依存しないオブジェクト提案生成器である。
訳抜け防止モード: OLNはクラス非依存のオブジェクト提案ジェネレータである 画像内の全てのオブジェクトを 平均的なリコール率で推定します
0.75
We train OLN using the known class annotations and use the predicted boxes to train our detection 既知のクラスアノテーションを使ってolnをトレーニングし、予測ボックスを使って検出をトレーニングします。 0.54
model, shown in Figure 2. Since captions sometimes refer to background context in the image, parallel to the boxregion features, we also use grid-region features similar to the OVR [41] approach. 図2に示すモデル。 キャプションは、ボックス領域の特徴と平行して画像中の背景コンテキストを指すことがあるため、OVR[41]アプローチと同様のグリッド領域特徴も用いている。 0.69
Grid-region features are obtained by skipping the RPN in the Faster R-CNN and simply using the output of the backbone network. グリッド領域の特徴は、高速R-CNNでRPNをスキップし、バックボーンネットワークの出力を単純に使用することによって得られる。 0.65
We apply the grounding loss to both type of image-region features. 画像領域の特徴の両タイプに接地損失を適用する。 0.75
Our final grounding loss is given by: 最後の接地損失は次の通りである。 0.61
LG = LGbox (C)+LGbox(I)+LGgrid (C)+LGgrid(I) (4) LG = LGbox(C)+LGbox(I)+LGgrid(C)+LGgrid(I)(4) 0.47
Disentangled text features. 絡み合ったテキストの特徴。 0.56
Many previous works [6, 15, 26, 36] use contextualized language models to extract text representations of the sentence. 多くの先行研究 [6, 15, 26, 36] では文脈化された言語モデルを用いて文のテキスト表現を抽出している。
訳抜け防止モード: 多くの以前の作品 [6, 15, 26, 36] は文脈化された言語モデルを使用する 文章のテキスト表現を抽出します
0.75
Although, this might be suitable for a task that requires a global representation of a phrase or text, this is not ideal for the case for object detection, where each predicted bounding box is expected to contain a single object instance. これは、フレーズやテキストのグローバルな表現を必要とするタスクに適しているかもしれないが、各予測境界ボックスが単一のオブジェクトインスタンスを含むと予想されるオブジェクト検出の場合には理想的ではない。 0.84
We show that using a simple text representation, which keeps the disentangled semantics of words in a caption, gives the flexibility to correctly match object boxes in an image with words in a caption. 本研究では,字幕内の単語の区切られたセマンティクスを保持する単純なテキスト表現を用いることで,画像中のオブジェクトボックスと字幕内の単語とを正しく一致させることができることを示す。 0.67
Our method uses only the embedding module [10, 28] of a pre-trained language model to encode the caption and performs matching with the proposed imageregions. 本手法では,事前学習した言語モデルの埋め込みモジュール[10,28]のみを用いてキャプションを符号化し,提案する画像領域とマッチングを行う。 0.80
We show empirically, in Section 4.4, that using such a lightweight text embedding module has better performance than using a whole large-scale language model. 第4節4では,このような軽量テキスト埋め込みモジュールを用いることで,大規模言語モデルよりも優れた性能が得られることを実証的に示す。 0.69
Consistency-regulari zation Miech et al [27] showed that processing multi-modal data using cross-attention networks brings improvements in retrieval accuracy over using separate encoders for each modality and projecting over a common embedding space. 整合規則化 Miech et al [27] は,マルチモーダルデータを相互アテンションネットワークで処理することにより,各モダリティに対する分離エンコーダの使用や共通埋め込み空間への投影よりも,検索精度が向上することを示した。
訳抜け防止モード: 一貫性 - 正規化 Miech et al [ 27 ] が示す。 クロスアテンションネットワークを用いたマルチモーダルデータ処理 検索精度が向上し 異なるエンコーダを使って 共通の埋め込み空間を投影します
0.74
However, this cross-attention becomes very expensive when the task requires large-scale retrieval. しかし、タスクが大規模検索を必要とすると、このクロスアテンションは非常に高価になる。 0.50
To take the benefit of cross-attention models, we consider a model similar to PixelBERT [15] to process the image-caption pairs. クロスアテンションモデルの利点を生かして,PixelBERT [15]に類似した画像キャプチャペアを処理するモデルを検討する。 0.77
This cross-attention model takes the image-regions RI together with the text embeddings W C and matches the corresponding image-caption pairs in a batch. このクロスアテンションモデルは、画像領域RIをテキスト埋め込みWCと共に取り、対応する画像カプセルペアをバッチでマッチングする。 0.62
The image-caption matching loss (LICM ) of the cross-attention model together with the traditional Masking Language Modeling loss (LM LM ) enforces the model to better project the image-region features to the language semantic space. クロスアテンションモデルのイメージキャプションマッチング損失(licm)と従来のマスキング言語モデリング損失(lm lm)は、画像領域の特徴を言語意味空間によりよく投影するようにモデルを強制する。 0.82
Zareian et al [41] showed that including these losses only brings a small benefit in the final performance. Zareian氏ら[41]は、これらの損失を含むと、最終的なパフォーマンスに小さな利益しか得られないことを示した。
訳抜け防止モード: zareian et al [41] は これらの損失は、最終的なパフォーマンスに小さな利益をもたらすだけです。
0.79
To better exploit the benefits of cross-attention, we add a consistency-regulari zation loss (LCons) between the final predicted distribution over the image-caption matching scores in the batch, before and after the cross-attention model. クロスアテンションの利点をよりよく活用するために、クロスアテンションモデルの前と後、バッチ内の画像キャプションマッチングスコアに対する最終的な予測分布間の一貫性-規則化損失(LCons)を追加する。 0.68
We use the Kullback-Leibler divergence loss to impose this consistency. この一貫性を強制するために、kullback-leibler divergencelosを使用する。 0.45
In summary, we use three consistency まとめると 3つの一貫性を使い 0.70
英語(論文から抽出)日本語訳スコア
terms over different image-caption pairs: 異なる画像カプセル対に対する用語 0.71
LCons =DKL(p(Ibox, C)||q(Ibox, C)) LCons =DKL(p(Ibox, C)||q(Ibox, C)) 0.50
+ DKL(p(Igrid, C)||q(Igrid, C)) + DKL(p(Igrid, C)||q(Ibox, C)) + DKL(p(Igrid, C)||q(Igrid, C)) + DKL(p(Igrid, C)||q(Ibox, C)) 0.48
(5) where p(I∗, C) and q(I∗, C) correspond to the softmax of the image-caption pairs in a batch before and after the crossattention model respectively, and the sub-index of the image corresponds to the box- or grid-region features. (5) p(i∗, c) と q(i∗, c) はそれぞれ交叉モデルの前後のバッチにおける画像カプセル対のソフトマックスに対応し、画像のサブインデックスはボックスまたはグリッド領域の特徴に対応する。 0.59
Our final loss for the LSM stage corresponds to the sum of the above defined losses: lsmステージの最終的な損失は、上記定義された損失の合計に対応する。 0.73
LLSM = LG + LICM + LM LM + LCons LLSM = LG + licM + LM LM + LCons 0.41
(6) 3.2. Specialized Task Tuning (STT) (6) 3.2. 特別タスクチューニング(STT) 0.51
In this stage, we fine-tune our Faster R-CNN model using known class annotations to learn to localize the objects precisely. この段階では、既知のクラスアノテーションを使用してFaster R-CNNモデルを微調整し、オブジェクトを正確にローカライズする方法を学ぶ。 0.59
We initialize the weights from the LSM stage model, and partially freeze part of the backbone and the projection layer to preserve the learned semantics. LSMステージモデルから重みを初期化し、学習した意味を保存するためにバックボーンとプロジェクション層の一部を部分的に凍結する。 0.72
Freezing the projection layer is important to avoid overfitting on the known classes and generalize on novel classes. 投影層を凍結することは、既知のクラスへの過剰適合を避け、新しいクラスを一般化するために重要である。
訳抜け防止モード: 投影層を凍結する 既知のクラスへの過剰適合を避け、新しいクラスを一般化することが重要である。
0.60
To predict the class of an object, we compute the similarity score between the proposed object box-region feature vector (ri) and all the class embedding vectors ck and apply softmax オブジェクトのクラスを予測するために、提案するオブジェクトボックス領域特徴ベクトル(ri)とすべてのクラス埋め込みベクトルckとの類似度スコアを計算し、softmaxを適用する。 0.84
1 +(cid:80) 1+(cid:80) 0.43
exp(ri · ck) k∈OK c(cid:48) exp(ri · ck) kftpok c(cid:48) 0.43
exp(ri · ck(cid:48)) exp(ri · ck(cid:48)) 0.49
p(ri, ck) = p(ri, ck) = 0.42
. (7) The scalar 1 included in the denominator corresponds to the background class, which has a representation vector of all-zeros. . (7) 分母に含まれるスカラー1は、全零の表現ベクトルを持つ背景クラスに対応する。
訳抜け防止モード: . (7) 分母に含まれるスカラー1は、バックグラウンドクラスに対応する。 すべての-ゼロの表現ベクトルを持つ。
0.54
We evaluate the performance across three setups: (Novel) considering only the novel class set ON , (Known) comparing with the known classes only OK and (Generalized) considering all novel and known classes together. そこで本研究では,新しいクラスセット On と,新しいクラスセット On と Known と,新しいクラスと既知のクラスを同時に考える (Generalized) の3つの設定で性能を評価した。 0.70
4. Experiments 4.1. Training Details 4. 実験 4.1 訓練の詳細 0.86
Datasets. The Common Objects in Context (COCO) dataset [23] is a large-scale object detection benchmark widely used in the community. データセット。 Common Objects in Context(COCO)データセット[23]は、コミュニティで広く使われている大規模なオブジェクト検出ベンチマークです。 0.73
We use the 2017 train and val split for training and evaluation respectively. 2017 trainとval splitをそれぞれトレーニングと評価に使用しています。 0.81
We use the known and novel object class splits proposed by Bansal et al [2]. 我々は Bansal et al [2] によって提案された既知の新しいオブジェクトクラス分割を用いる。 0.74
The known set consists of 48 classes while the novel set has 17 classes selected from the total of 80 classes of the original COCO dataset. 既知のセットは48のクラスで構成され、新規セットはオリジナルのCOCOデータセットの合計80のクラスから選択された17のクラスを持つ。 0.71
We remove the images which do not contain the known class instances from the training set. トレーニングセットから既知のクラスインスタンスを含まないイメージを削除します。
訳抜け防止モード: 私たちはその画像を取り除きます トレーニングセットから既知のクラスインスタンスを含まない。
0.76
For the localized semantic matching phase, we use the captions from COCO captions [5] dataset which has the same train/test splits as the COCO object detection task. 局所的なセマンティックマッチングフェーズでは、COCOオブジェクト検出タスクと同じ列車/テスト分割を持つCOCOキャプション[5]データセットのキャプションを使用します。 0.68
COCO captions dataset contains 118,287 images with 5 captions each. COCOキャプションデータセットには、118,287の画像と5つのキャプションが含まれている。 0.42
Visual Attributes in the Wild (VAW) dataset [29] We use the training, validation and test set of images as defined with the proposed dataset [29]. 野生(vaw)データセットのビジュアル属性 [29] 提案されたデータセット[29]で定義されたイメージのトレーニング、検証、テストセットを使用します。 0.85
The dataset contains 58,565 images for training, 3,317 images for validation, and 10,392 images for testing. データセットにはトレーニング用の58,565イメージ、検証用の3,317イメージ、テスト用の10,392イメージが含まれている。 0.50
We define the splits for known and novel classes taking approximately 20% of the total classes (2260) to be novel, resulting in 1792 known and 468 novel classes. 総クラス(2260)の約20%をノベルとする既知のクラスと新規クラスの分割を定義し、1792年のノベルクラスと468のノベルクラスを生み出した。 0.73
We make sure that all known and novel classes from COCO split are kept in the same subset for VAW splits. VAWスプリットの場合、COCOスプリットの既知のクラスと新しいクラスがすべて同じサブセットに保持されていることを確認します。
訳抜け防止モード: 私たちはそれを確信する COCOスプリットの既知のクラスと新しいクラスはすべてVAWスプリットと同じサブセットに保存される。
0.61
After removing images with no known annotations from the training and splitting into known and novel classes, there are 54,632 images for training spanning over 1790 known classes, 818 known / 200 novel classes for the validation set, and 1020 known / 297 novel classes for the test set. 既知のアノテーションを持たないイメージをトレーニングから取り除き、既知のクラスと新しいクラスに分割すると、1790以上の既知のクラスにまたがるトレーニング用の54,632枚のイメージ、検証セット用の既知の 818 / 200 の新規クラス、1020の既知の / 297 の新規クラスがある。
訳抜け防止モード: トレーニングから既知のアノテーションのないイメージを削除し、既知のクラスと新しいクラスに分割する。 1790以上の授業で 54,632枚の画像が撮影されています 818 known / 200 novel class for the validation set テストセット用の1020 known / 297 の新規クラス。
0.81
This dataset is much more challenging as compared to COCO since it contains fine-grained classes with a long-tailed distribution. このデータセットは、長いテールの分布を持つきめ細かいクラスを含んでいるため、cocoよりもずっと難しい。 0.64
It not only contains more classes as compared to the COCO benchmark, but also poses additional challenges like plural versions defined as different classes, e g kites vs kite. COCOベンチマークと比較してより多くのクラスが含まれているだけでなく、異なるクラスとして定義された複数のバージョン、eg kites vs kiteといった、さらなる課題も生じている。 0.65
In the LSM phase, we use the captions from Visual Genome Region Descriptions [21] which contain 108,077 images with a total of 4,297,502 region descriptions. LSMフェーズでは、合計4,297,502の領域記述を持つ108,077個の画像を含む視覚ゲノム領域記述[21]のキャプションを使用する。 0.73
We combine these region descriptions for every image to have a single caption per image. 画像毎にひとつのキャプションを持つように、これらの領域記述を組み合わせる。 0.67
Evaluation metric. We evaluate our method using mean Average Precision (AP) over IoU scores from 0.5 to 0.95 with a step size of 0.05, and using two fixed thresholds at 0.5 (AP50) and 0.75 (AP75). 評価指標。 ステップサイズ0.05のIoUスコアの0.5から0.95までの平均精度(AP)と0.5(AP50)と0.75(AP75)の2つの固定しきい値を用いて評価した。 0.74
We compute these metrics separately for novel and known classes, calculating the softmax within the subsets exclusively; and in a generalized version both sets are evaluated in a combined manner, calculating the probability across all classes. 我々はこれらのメトリクスを新規クラスと既知のクラスで別々に計算し、サブセット内のソフトマックスを計算し、一般化されたバージョンでは両方の集合を組み合わせて評価し、すべてのクラスにまたがる確率を計算する。 0.70
Implementation details. We base our model on Faster R-CNN C4 [32] configuration, using ResNet50 [14] backbone pre-trained on ImageNet [9], together with a linear layer (projection layer) to obtain the object feature representations. 実装の詳細。 imagenet [9] で事前トレーニングされた resnet50 [14] バックボーンと、リニア層(投影層)を併用して、より高速な r-cnn c4 [32] 構成をベースとし、オブジェクトの特徴表現を得る。 0.68
We use Detectron2 framework [40] for our implementation. 実装には Detectron2 フレームワーク [40] を使用します。 0.73
For the part-of-word feature representations, we use the embedding module of the pre-trained BERT [10] “base-uncased” model from the HuggingFace implementation [39]. パート・オブ・ワードの特徴表現には、HuggingFaceの実装[39]からトレーニング済みのBERT [10]“base-uncased”モデルの埋め込みモジュールを使用します。 0.70
To get the object proposals for the LSM stage, we train a generic object proposal network, OLN [18]. LSMステージのオブジェクト提案を取得するために、汎用オブジェクト提案ネットワークOLN[18]をトレーニングします。 0.65
OLN is trained using only the known classes on COCO training set. OLNはCOCOトレーニングセットの既知のクラスのみを使用してトレーニングされる。 0.70
We use all the proposals generated for the training images which have an objectness score higher than 0.7. 対象スコア0.7以上のトレーニング画像に対して生成された提案をすべて使用する。 0.76
For our cross-attention model, we use a transformer-based architecture with 6 hidden layers and 8 attention heads trained from scratch. クロスアテンションモデルでは、6つの隠れレイヤと8つのアテンションヘッドをスクラッチからトレーニングしたトランスフォーマーベースのアーキテクチャを使用します。 0.53
We train our LSM stage with a base learning rate of 0.001, where the learning rate is divided by 10 at 45k and 60k iterations. LSMステージを0.001のベースラーニングレートでトレーニングし、学習率は45kと60kのイテレーションで10に分割します。 0.78
We use a batch size of 32 and train on 8 GeForce-RTX-2080-Ti GPUs for 90k iterations. バッチサイズは32で、90kイテレーションで8GeForce-RTX-2080-Ti GPUでトレーニングします。 0.68
For the STT stage, we initialize the weights of the Faster R-CNN and projection layer from the LSM stage, freezing the first STTステージでは、高速R-CNNと射影層の重量をLSMステージから初期化し、第1段を凍結する。 0.72
英語(論文から抽出)日本語訳スコア
Method Faster R-CNN 方法 高速R-CNN 0.51
SB [2] LAB [2] DSES [2] DELO [46] SB [2] LAB [2] DSES [2] DELO [46] 0.42
PL [31] STT-ZSD (Ours) OVR∗§c [41] LocOv ∗§c XP-Mask‡§(cid:63)c [16] PL[31] STT-ZSD (Ours) OVR∗-c [41] LocOv ∗-c XP-マスク(cid:63)c [16] 0.39
(Ours) CLIP (cropped reg)† [13] RegionCLIP†‡§c [44] (うち) クリップ (cropped reg) -- [13] 領域クリップ [44] 0.58
ViLD†c [13] ヴィルデック[13]. 0.43
Img-Cap Data Size mgキャップ データサイズ 0.64
- 0.6M 5.7M 400M 403.6M 400M - 0.6M 5.7M400M403.6M400M 0.35
Constrained Novel (17) AP AP50 制約 小説 (17)ap ap50 0.69
- 0.21 14.6 17.2 - 0.21 14.6 17.2 0.33
- - 0.70 0.27 0.54 7.6 10.0 0.31 27.5 30.1 29.9 - - 0.70 0.27 0.54 7.6 10.0 0.31 27.5 30.1 29.9 0.35
- 30.8 - Known (48) AP50 AP 54.529.721.1 27.214.036.853.4 46.8 53.4 46.8 - 30.8 - ap50 ap 54.529.721.1 27.214.036.853.4 46.8 53.4 46.8 0.34
33.2 26.9 33.5 33.2 26.9 33.5 0.24
- 55.2 - - - 55.2 - - 0.39
- Novel (17) AP AP50- - 小説(17) APAP50- 0.63
0.31 0.22 0.27 3.41 4.12 0.05 22.8 28.6 27.0 26.3 26.8 27.6 0.31 0.22 0.27 3.41 4.12 0.05 22.8 28.6 27.0 26.3 26.8 27.6 0.21
0.03 - 16.6 0.03 - 16.6 0.34
- - Generalized Known (48) AP AP50- - - 一般化された(48)ap ap50- 0.47
29.2 20.8 26.7 13.8 35.9 53.1 46.0 51.3 46.3 28.3 54.8 59.5 29.2 20.8 26.7 13.8 35.9 53.1 46.0 51.3 46.3 28.3 54.8 59.5 0.21
33.0 - 31.9 33.0 - 31.9 0.34
- All (65) AP- - 全て(65) AP 0.53
24.4 22.8 28.1 24.4 22.8 28.1 0.24
- AP50 - 24.9 18.0 22.1 13.0 27.9 39.2 39.9 45.7 41.2 27.8 47.5 51.3 - AP50 - 24.9 18.0 22.1 13.0 27.9 39.2 39.9 45.7 41.2 27.8 47.5 51.3 0.36
Table 1. Comparing mAP and AP50 state-of-the-art methods. 表1。 mAP と AP50 の最先端の手法の比較。 0.64
LocOv outperforms all other methods for Novel objects in the generalized setup while using only 0.6M of image-caption pairs. LocOvは、イメージキャプチャペアの0.6Mしか使用せず、一般的な設定で、新しいオブジェクトの他のメソッドよりも優れている。 0.48
Training dataset: ∗ImageNet1k, §COCO captions, †CLIP400M, ‡Conceptual Captions, (cid:63)Open Images, and cCOCO トレーニングデータセット: ∗ImageNet1k、-COCOキャプション、-CLIP400M、-Conceptual Captions、 (cid:63) Open Images、cCOCO 0.69
Method STT-ZSD (Ours) 方法 STT-ZSD (Ours) 0.40
OVR [41] LocOv (Ours) OVR[41] LocOv (複数形 LocOvs) 0.51
Novel (297) AP AP50 AP75 0.14 0.28 0.15 0.59 1.27 0.45 0.67 1.42 0.59 AP50 AP75 0.14 0.28 0.15 0.59 1.27 0.45 0.67 0.42 0.59 0.27
Known (1020) AP AP50 AP75 1.33 2.56 1.16 0.92 2.08 0.72 1.21 2.31 1.11 既知の (1020) AP AP50 AP75 1.33 1.56 0.92 2.08 0.72 1.21 1.31 1.11 0.27
Generalized (2060) AP AP50 AP75 0.95 1.84 0.82 0.54 0.70 1.57 0.91 1.77 0.81 general (2060) ap50 ap75 0.95 0.84 0.82 0.54 0.57 0.91 0.77 0.81 0.54
Table 2. Comparing open-vocabulary object detection results on the VAW test set. 表2。 VAWテストセットにおけるオープン語彙オブジェクト検出結果の比較。 0.76
two blocks of ResNet50 and the projection layer. resnet50の2つのブロックと投影層。 0.73
For object classes that contain more than one part-of-word representation given BERT embedding module, we consider the average of their vector representation. BERT埋め込みモジュールが与えられた1つ以上の単語表現を含むオブジェクトクラスに対して、ベクトル表現の平均を考える。 0.82
We use a base learning rate of 0.005 with a 10 times drop at 60k iterations and do early stopping to avoid over-fitting. ベース学習率は0.005で,60万回の反復で10倍の低下を示し,オーバーフィッティングを避けるために早期停止を行う。 0.68
4.2. Baselines 4.2. ベースライン 0.52
OVR. Our main open-world object detection baseline approach is proposed by Zareian et al [41]. OVR。 我々の主要なオープンワールドオブジェクト検出ベースラインアプローチはZaleianらによって提案されている[41]。 0.53
We utilize some components proposed in that work including the two-stage design, grounding loss and usage of a cross-attention model. 提案手法では,2段階設計,接地損失,クロスアテンションモデルの利用など,いくつかの要素を活用できる。 0.66
In this work, we propose new components, which simplify and improve the model performance over OVR. 本稿では,OVR上でのモデル性能を簡素化し,改善する新しいコンポーネントを提案する。 0.86
STT-ZSD. Our second baseline uses only the Specialized Task Tuning stage. STT-ZSD。 第2のベースラインは、特別なタスクチューニングステージのみを使用します。 0.45
This resembles a zero-shot object detection setting. これはゼロショットオブジェクト検出設定に似ている。 0.66
The parameters of this baseline model are initialized with a pre-trained model on ImageNet [9] with the only difference that the projection layer is trainable. このベースラインモデルのパラメータはimagenet [9]で事前トレーニングされたモデルで初期化され、プロジェクション層がトレーニング可能である唯一の違いとなる。 0.74
Zero-shot methods. ゼロショットメソッド。 0.74
We compare to some zero-shot object detection approaches which do not include the weak supervision provided by the captions. キャプションによって提供される弱さを含まないゼロショット物体検出手法との比較を行った。 0.70
We compare to three background-aware zero-shot detection methods, introduced by Bansal et al [2], which project features of an object bounding box proposal method to word embeddings. 本稿では,Bansal et al [2]によって導入された3つの背景認識ゼロショット検出手法を比較した。
訳抜け防止モード: 3つの背景を比較します -ゼロを認識。 bansal et al [2 ] によるショット検出法 単語埋め込みへのオブジェクトバウンディングボックスの提案メソッドのどのプロジェクトフィーチャか。
0.73
The SB method includes a fixed vector for the background class in order to select which bounding boxes to exclude during the object classification, LAB uses multiple latent vectors to represent the different variations of the background class, and DSES includes more classes than the known set as word embedding to train in a more dense semantic space. その... SBメソッドは、オブジェクト分類中に除外すべき境界ボックスを選択するために、背景クラスの固定ベクトルを含み、LABは背景クラスの異なるバリエーションを表現するために複数の潜在ベクトルを使用し、DSESはより密密なセマンティック空間でトレーニングするために単語埋め込みとして既知のセットよりも多くのクラスを含む。 0.52
DELO [46] method uses a generative model and unknown classes to synthesize visual features and uses them while training to increase background confidence. DELO [46]法は生成モデルと未知のクラスを用いて視覚特徴を合成し、学習中にそれらを用いて背景信頼度を高める。
訳抜け防止モード: DELO[46 ]法は生成モデルと未知クラスを用いる 視覚的特徴を合成し 訓練中に使用して 背景の信頼を高めます
0.91
PL [31] work deals with the imbalance between positive vs. negative instance ratio by proposing a method that maximizes the margin between foreground and background boxes. PL[31]の作業は、前景と背景箱の間のマージンを最大化する手法を提案することにより、正対負のインスタンス比の不均衡を扱う。
訳抜け防止モード: PL[31]作業は正と負のインスタンス比の不均衡を扱う 前景と背景箱の間のマージンを最大化する方法を提案する。
0.78
Faster R-CNN. より高速なR-CNN。 0.49
We also compare with training the classical Faster R-CNN model only using the known classes. また、既知のクラスのみを使用して古典的なFaster R-CNNモデルのトレーニングと比較する。 0.64
Open-vocabulary with large data. 大きなデータを持つオープン語彙。 0.71
We compare our method with recent state-of-the-art models on OpenVocabulary. 提案手法をOpenVocabulary上の最新の最先端モデルと比較する。 0.65
RegionClip [44] uses the CLIP [30] pre-trained model to produce region-image pseudo labels and train an object detector. regionclip [44]はクリップ[30]プリトレーニングモデルを使用して、リージョンイメージの擬似ラベルを生成し、オブジェクト検出器をトレーニングする。 0.62
CLIP (cropped reg) [13] uses the CLIP pre-trained model on 400M image-caption pairs on object proposals obtained by an object detector trained on known classes. CLIP (cropped reg) [13]は、既知のクラスでトレーニングされたオブジェクト検出器によって得られたオブジェクト提案に対して、400Mの画像キャプチャ対上のCLIP事前トレーニングモデルを使用する。 0.64
XP-Mask [16] first learns a class-agnostic region proposal and segmentation model from the known classes and then uses this model as a teacher to generate pseudo masks for self-training a student model. xp-mask [16] は、まず既知のクラスからクラスに依存しない領域の提案とセグメンテーションモデルを学び、その後、このモデルを教師として使用して、学生モデルの自己学習のための擬似マスクを生成する。
訳抜け防止モード: XP - Mask [16 ] が最初に、既知のクラスからクラス非依存の領域の提案とセグメンテーションモデルを学ぶ このモデルを教師として利用し 学生モデルを訓練する、自己のための擬似マスクを生成する。
0.68
Finally, we also compare with VILD [13] which uses CLIP soft predictions to distil semantic information and train an object detector. 最後に、CLIPソフト予測を用いて意味情報を排除し、オブジェクト検出器を訓練するVILD[13]と比較する。 0.68
4.3. Results COCO dataset. 4.3. 結果 COCOデータセット。 0.64
Table 1 shows the comparison of our method with several zero-shot approaches and with the state-of-the-art method on open-vocabulary object detection, OVR [41]. 表1は,いくつかのゼロショットアプローチ,およびオープンボキャブラリー物体検出における最先端手法であるovr [41]との比較を示す。 0.69
LocOv outperforms previous zero-shot LocOvが過去のゼロショットを上回り 0.50
英語(論文から抽出)日本語訳スコア
(a) Ground Truth (b) STT-ZSD Base (a)根拠の真理 b) STT-ZSDベース 0.83
(c) OVR [41] (c)OVR[41] 0.41
(d) LocOv Figure 3. (d) LocOv 図3。 0.58
Qualitative results obtained using our open-vocabulary object detection approach on the COCO dataset. COCOデータセット上のオープン語彙オブジェクト検出手法を用いて定性的な結果を得た。 0.63
Novel classes are shown in magenta while known are in green. 新しいクラスはマゼンタで示され、既知のクラスは緑である。 0.56
(Best viewed in color) (色が一番よく見える) 0.84
Regions ann k+n k+n 地域 ann k+n k+n 0.52
k RI grid RI 100 k リ グリッドri100 0.64
box RI 100 100 200 100 ボックスリ 100 100 200 100 0.50
100 200 100 100 200 100 0.43
Novel (17) AP AP50 AP75 18.2 31.6 18.2 16.3 28.4 15.9 14.2 26.8 13.4 17.2 30.1 17.5 15.5 27.1 15.4 14.9 25.8 15.0 13.7 25.7 12.9 13.4 22.8 13.4 小説(17) AP AP50 AP75 18.2 31.6 18.2 16.3 28.4 15.9 14.2 26.8 13.4 17.2 30.1 17.5 15.5 27.1 15.4 14.9 25.8 15.0 13.7 25.7 12.9 13.4 22.8 13.4 0.47
Known (48) AP AP50 AP75 32.5 52.7 34.0 32.9 53.1 34.9 30.0 50.2 31.3 33.5 53.4 35.5 32.2 52.1 33.9 31.7 51.8 33.3 34.2 53.8 36.5 33.9 53.7 35.8 Known (48) AP AP50 AP75 32.5 52.7 34.0 32.9 53.1 34.9 30.0 50.2 31.3 33.5 53.4 35.5 32.2 52.1 33.9 31.7 51.8 33.3 34.2 53.8 36.5 33.9 53.7 35.8 0.23
Generalized AP AP50 AP75 27.9 46.0 28.8 27.6 45.3 28.8 24.8 42.4 25.5 28.1 45.7 29.6 27.1 44.5 28.2 26.6 43.9 27.7 27.5 43.8 29.1 27.0 43.3 28.5 Generalized AP AP50 AP75 27.9 46.0 28.8 27.6 45.3 28.8 24.8 42.4 25.5 28.1 45.7 29.6 27.1 44.5 28.2 26.6 43.9 27.7 27.5 43.8 29.1 27.0 43.3 28.5 0.22
grid- gridTable 3. グリッドテーブル3。 0.63
Different image regions for the LSM stage. LSMステージの異なる画像領域。 0.60
RI ann- ground truth boxregions, RI regions of (k) known or (n) novel objects use during the LSM stage RI Ann-ground truth box Regions, RI Regions of (k) known or (n) novel objects used in the LSM stage
訳抜け防止モード: RI Ann- Ground truth box Regions, RI region of (k ) known または(n) LSM 段階で使われる新しいオブジェクト
0.86
box- proposed box-regions and RI box- 提案されたボックスリージョンと RI 0.57
detection methods, which show weak performance on detecting novel objects. 新しい物体を検知する際の弱い性能を示す検出方法。 0.79
In comparison to OVR, we improve by 2.53 AP, 3.4 AP50 for the novel classes and 3.91 AP, 3.92 AP50 for the known categories. ovrと比較して,新規クラスでは2.53 ap,3.4 ap50,既知のカテゴリでは3.91 ap,3.92 ap50改善した。 0.66
We observe openvocabulary methods including OVR and our methods have a trade-off between known and novel class performance. 我々はOVRを含むオープンボキャブラリ手法を観察し、その手法は既知のクラスと新しいクラスのパフォーマンスのトレードオフを持っている。 0.52
Our method finds a better trade-off as compared to the previous work. 我々の手法は以前の方法よりも良いトレードオフを見出す。 0.68
It reduces the performance gap on known classes as compared to the Faster R-CNN and improves over the novel classes as compared to all previous works. これは、Faster R-CNNと比較して既知のクラスのパフォーマンスギャップを減らし、以前のすべての作品と比較して、新しいクラスよりも改善する。 0.65
Our method is competitive with recent state-of-the-art methods which use more than ∼700 times more image-captions pairs to train, which makes our method data efficient. 提案手法は,700倍以上のイメージキャプチャペアをトレーニングに使用する最新の最先端手法と競合するため,データ効率が向上する。 0.73
Figure 3 shows some qualitative results of our method compared with the STT-ZSD baseline and OVR. 図3はSTT-ZSDベースラインとOVRと比較して定性的な結果を示している。 0.70
Known categories are drawn in green while novel are highlighted in magenta. 有名なカテゴリーは緑で、小説はマゼンタで強調される。 0.63
The columns correspond to the ground truth, STT-ZSD, OVR and our method from left to right. これらのコラムは, STT-ZSD, OVR, および我々の方法の左から右へ対応している。 0.65
LocOv is able to find novel objects with a high confidence, such as LocOvは、信頼度の高い新しいオブジェクトを見つけることができる。 0.66
the dogs in the first example, the couch in the second and the umbrella in the third one. 最初の例では犬、2番目はソファ、3番目は傘です
訳抜け防止モード: 最初の例の犬は2番目のソファで そして 3番目の傘の傘。
0.67
We observe that our method sometimes misclassifies objects with plausible ones, such as the case of the chair in the second example which shares a similar appearance to a couch. 本手法は,ソファに類似した外観を持つ2番目の例の椅子の場合のように,オブジェクトを妥当なものに誤分類することがある。 0.76
These examples show a clear improvement of our approach, over the other methods. これらの例は、他の方法よりも、我々のアプローチを明確に改善していることを示している。 0.52
VAW dataset. VAWデータセット。 0.78
LocOv successfully generalizes to the VAW benchmark. LocOvはVAWベンチマークにうまく一般化する。 0.53
Table 2 shows the comparison of our approach to both STT-ZSD and OVR baselines on the test set. 表2は、テストセット上のSTT-ZSDとOVRベースラインの比較である。 0.66
Our method improves consistently over the other two methods for the novel classes, showing that it can scale to more challenging settings with long-tailed distribution and large number of classes. 提案手法は他の2つの手法よりも一貫して改良され,ロングテール分布と多数のクラスでより困難な設定にスケールできることを示した。 0.76
4.4. Ablation Experiments 4.4. アブレーション実験 0.54
Localized objects matter. 局所オブジェクトが重要である。 0.50
Table 3 presents the impact of using box- vs grid-region features in the LSM stage. 表3は、LSMステージにおけるボックス/グリッドリージョン機能の使用の影響を示します。 0.66
We compare our method using grid-region features RI grid, proposed box-region features RI box, and using box-region features from the known (k) or novel (n) class annotations ann. 提案手法は,グリッド領域特徴 RI グリッド,提案するボックス領域特徴 RI ボックス,および既知の (k) や新しい (n) クラスアノテーション ann からのボックス領域特徴 を用いて比較する。 0.78
When training the LSM stage, we only consider a RI fixed amount of image regions to calculate the losses and drop the rest of the regions. lsmステージをトレーニングする場合、損失を計算し、残りの領域をドロップするために、riに固定された画像領域だけを考える。 0.64
To illustrate that the improvement comes from the combination of grid- and box-regions and not simply from more boxes, we trained with an increased number of image regions (100 and 200) for every case explicitly stated in Table 3. この改善は、単に多くのボックスからではなく、グリッドリージョンとボックスリージョンの組み合わせによるものであることを示すために、テーブル3に明記されているすべてのケースに対して、画像領域(100と200)の増加を訓練した。
訳抜け防止モード: 改善は、単に多くのボックスからではなく、グリッドとボックスの組み合わせによって行われる。 表3に明記されているすべてのケースに対して,画像領域(100および200)の増加を訓練した。
0.73
Even though increasing the number of regions results in a better performance the combination of both types of regions proves to be best, showing a complementary behavior. リージョン数が増加するとパフォーマンスが向上するが、両方のタイプのリージョンの組み合わせが最良であることが証明され、補完的な振る舞いを示す。
訳抜け防止モード: 地域が増えてもパフォーマンスは向上する 両領域の組み合わせが最善であることを証明し、相補的な行動を示す。
0.67
We also considered two oracle experiments (row 1 and 2) using ground-truth box-region また,2つのオラクル実験 (row 1, 2) も検討した。 0.65
英語(論文から抽出)日本語訳スコア
LCons (cid:88) (cid:88) (cid:88) (cid:88) LCon (出典:88)(出典:88)(出典:88)(出典:88) 0.45
BERT BERT Model Emb. BERT BERT Model Emb。 0.80
fz fz fz ft fz fzfzft所属。 0.40
fz scratch Novel (17) fz スクラッチ 小説(17) 0.53
AP AP50 AP75 17.2 30.1 17.5 16.7 29.7 16.7 16.9 29.5 16.9 16.0 28.3 16.2 15.4 27.9 15.2 AP AP50 AP75 17.2 30.1 17.5 16.7 29.7 16.7 16.9 29.5 16.9 16.0 28.3 16.2 15.4 27.9 15.2 0.22
Known (48) AP AP50 AP75 33.5 53.4 35.5 33.4 53.5 35.5 33.4 53.0 35.4 30.4 49.6 31.8 32.2 52.1 34.1 AP50 AP75 33.5 53.4 35.5 33.4 53.5 35.5 33.4 53.0 35.4 30.4 49.6 31.8 32.2 52.1 34.1 0.25
Generalized AP AP50 AP75 28.1 45.7 29.6 28.2 45.9 29.5 28.1 45.7 29.4 25.8 42.9 26.6 26.3 43.6 27.3 AP50 AP75 28.1 45.7 29.6 28.2 28.9 28.5 28.7 29.4 25.8 26.9 26.3 43.6 27.3 0.25
Table 4. Ablation study showing the contribution of our proposed consistency-regulari zation term (LCons) and usage of BERT text embeddings on COCO validation set. 表4。 提案した一貫性規則化項(LCons)の寄与と,COCO検証セットへのBERTテキスト埋め込みの利用に関するアブレーション研究を行った。
訳抜け防止モード: 表4。 提案した整合性-正則化項(LCons)の寄与を示すアブレーション研究 BERTテキストのCOCO検証セットへの埋め込みの使用。
0.56
We compared using frozen pretrained weights (fz) of the language model and embedding, fine-tuning (ft) or training from scratch 言語モデルの凍結事前訓練重量(fz)と埋め込み、微調整(ft)、あるいはスクラッチからのトレーニングの比較を行った。 0.76
(a) GT (b) LocOv (a)GT (b)ロコフ 0.52
Figure 4. Failure cases. 図4。 障害ケース。 0.65
The method fails to learn fine-grained classification for novel objects. この手法は、新しい物体のきめ細かい分類を学ばない。 0.68
The model confuses between similar classes. そのモデルは類似のクラスを混同する。 0.69
For e g the model sometimes predicts ‘fork’ as ‘knife’(first row) and ‘cat’ as ‘dog’(second row). 例えば、モデルでは‘fork’を‘knife’(first row)、‘cat’を‘dog’(second row)と予測することがある。 0.83
features from both known and novel class annotations instead of proposed box-region features. 提案されたボックスリージョン機能ではなく、既知のクラスアノテーションと新しいクラスアノテーションの両方の機能。 0.53
These two experiments improve performance on novel classes showing that object-centered box regions are crucial and the best performance is achieved when combined with additional grid regions (row 1). これらの2つの実験は、オブジェクト中心のボックス領域が重要であり、追加のグリッド領域(ロー1)と組み合わせることで、最高のパフォーマンスが得られることを示す。 0.63
The additional grid-regions help in capturing the background objects beyond the annotated classes while box-regions focus on precise foreground objects, which improves the image-caption matching. 追加のグリッドリージョンはアノテーション付きクラスを越えてバックグラウンドオブジェクトをキャプチャするのに役立つが、ボックスリージョンは正確なフォアグラウンドオブジェクトにフォーカスする。 0.70
Consistency loss and text embedding selection. 一貫性の喪失とテキスト埋め込みの選択。 0.62
Table 4, shows the contribution of our consistency-regulari zation term. 表4は、一貫性・レギュライゼーション用語の貢献を示しています。 0.56
We get an improvement of 1.76 AP by introducing our consistency loss. 整合性損失を導入して1.76APを改善する。 0.58
We compare the performance of using a pre-trained text embedding module vs learning it from scratch, fine-tuning it or considering the complete contextualized language model during the LSM stage in Table 4. テーブル4のlsmステージにおいて,事前学習したテキスト埋め込みモジュールの性能と,スクラッチから学習し,微調整するか,完全なコンテキスト化言語モデルを検討するかを比較した。 0.77
Using the pre-trained text embedding, results in a better model. トレーニング済みのテキスト埋め込みを使用することで、よりよいモデルが得られる。 0.61
We find out that using only the embeddings module is sufficient and better than using the complete contextualized BERT language model for the task of object detection. 埋め込みモジュールのみを用いることで、オブジェクト検出のタスクに完全なコンテキスト化BERT言語モデルを使用するよりも、十分かつ優れたことが分かる。 0.77
We argue that this is because objects are mostly represented これはオブジェクトがほとんど表現されているためである、と我々は主張する。 0.50
Freezing blocks 1-2 (cid:88) 凍結ブロック1-2(cid:88) 0.66
1-3 (cid:88) 1-3 (cid:88) 0.34
1-4 LSM STT (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 1-4 LSM STT (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 0.33
(cid:88) AP AP50 AP75 17.17 30.86 16.78 16.77 30.91 16.24 15.96 29.09 15.59 0.37 0.73 0.21 0.21 (cid:88) AP AP50 AP75 17.17 30.86 16.78 16.77 30.91 16.24 15.96 29.09 15.59 0.37 0.73 0.21 0.21 0.31
1.89 0.31 (cid:88) (cid:88) 1.89 0.31 (cid:88)(cid:88) 0.31
Table 5. This table compares the contribution of different stages of the model on the novel object detection. テーブル5。 この表は、新しいオブジェクト検出におけるモデルの異なるステージの寄与を比較する。 0.78
The table also compares different configurations of model update in the STT stage by freezing parts of the backbone network 表はまた、バックボーンネットワークの一部を凍結することで、STTステージにおけるモデル更新の異なる構成を比較する。
訳抜け防止モード: テーブルはまた、STTステージにおけるモデル更新の異なる構成を比較する。 背骨ネットワークの凍った部分
0.88
by single word vectors, using simple disentangled text embeddings is better suited for generating object class features. 単一の単語ベクトルによって、単純な不連続テキスト埋め込みを使うことは、オブジェクトクラスの特徴を生成するのにより適している。 0.55
Two-stage model performs best. 2段階モデルが最善を尽くす。 0.62
Table 5 shows the improvement from combining both stages of our method. 表5は,本手法の両段階の組み合わせによる改善点を示す。 0.75
The last two rows of Table 5 consider our method using only the STT stage (same as our baseline STT-ZSD from Section 4.2) and using only the LSM stage. 表5の最後の2行は、STTステージ(第4節2項のベースラインSTT-ZSD)のみを使用し、LSMステージのみを使用する方法である。 0.75
Individual stage models are not able to detect novel objects well, which shows that both stages are fundamental for the detection of novel objects. 個々のステージモデルは、新しいオブジェクトを十分に検出できないため、どちらのステージも新しいオブジェクトを検知するための基本となる。 0.80
We further compare the performance of different model configurations by freezing different number of blocks of the backbone network during the STT stage. さらに,STTステージにおけるバックボーンネットワークのブロック数を凍結することにより,異なるモデル構成の性能を比較する。 0.87
Our results show that only freezing the first two blocks and the projection layer leads to the best configuration for the STT. その結果,最初の2ブロックとプロジェクション層のみを凍結させることで,STTの最適構成が得られることがわかった。 0.73
4.5. Limitations Visual features of novel object classes are learned during the Localized Semantic Matching stage using imagecaption pairs. 4.5. 制限 新しいオブジェクトクラスの視覚的特徴は、イメージキャプションペアを使用して局所的なセマンティックマッチングの段階で学習される。
訳抜け防止モード: 4.5. 制限 局所的セマンティックマッチング段階における新しいオブジェクトクラスの視覚的特徴 イメージキャプションペアを使って
0.62
We notice that such a weak form of supervision is not sufficient to learn fine-grained classification. このような弱い監督形態は、きめ細かい分類を学ぶには不十分である。 0.62
Similar classes such as ‘dog’ and ‘cat’ or ‘knife’ and ‘fork’ are often confused, as shown in Figure 4, since they can be used exchangeably in the caption description and they sometimes even co-occur in the image (e g knife-fork), making the matching process ambiguous. dog’や‘cat’、‘knife’、‘fork’といった類似のクラスは、図4に示すようにしばしば混同される。
訳抜け防止モード: 犬」や「猫」のような類似のクラス または、' knife ' と 'fork ' がしばしば混同される。 図4に示すように、 キャプション記述で交換して使用することができる 時には、画像(egナイフ、フォーク)にココが現れることもある。 マッチングプロセスを曖昧にします
0.81
We also observe a clear drop in performance of known object classes when a similar novel object class is detected. また、同様の新しいオブジェクトクラスが検出されると、既知のオブジェクトクラスのパフォーマンスが明らかに低下するのを観察する。 0.68
A table showing this analysis quantitatively is included in the supplementary. この分析を定量的に示す表が補足表に含まれる。 0.78
5. Conclusion In this work, we proposed an image-caption matching method for open-vocabulary object detection. 5.結論 本研究では,オープン語彙オブジェクト検出のための画像キャプションマッチング手法を提案する。 0.73
We introduced a localized matching technique to learn improved labels of novel classes as compared to only using grid features. グリッド機能のみを用いた場合と比較して,新しいクラスラベルの改善を学習するための局所マッチング手法を導入した。 0.65
We also showed that the language embedding model is preferable over a complete language model, and proposed a regularization approach to improve cross-modal learning. また,完全言語モデルよりも言語埋め込みモデルが望ましいことを示し,クロスモーダル学習を改善するための正規化アプローチを提案した。 0.86
In conjunction, these components yield favorable results compared to previous open-world methods on COCO and VAW benchmarks, particularly considering the much lower amount of necessary data to learn from. これらのコンポーネントは、COCOとVAWベンチマークの以前のオープンワールドメソッドと比較して、特に学習に必要なデータ量がはるかに少ないことを考慮すれば、良好な結果が得られる。
訳抜け防止モード: これらのコンポーネントは、COCOおよびVAWベンチマークの以前のオープンワールドメソッドと比較して好意的な結果が得られる。 特に 学ぶために必要なデータが はるかに少ないことを考えると
0.56
英語(論文から抽出)日本語訳スコア
References [1] Elad Amrani, Rami Ben-Ari, 参考文献 [1] Elad Amrani, Rami Ben-Ari 0.47
Inbar Shapira, Tal Hakim, and Alex Bronstein. inbar shapira、tal hakim、alex bronstein。 0.53
Self-supervised object detection and retrieval using unlabeled videos. ラベルなしビデオを用いた自己教師付き物体検出と検索 0.63
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2020 0.42
3 [2] Ankan Bansal, Karan Sikka, Gaurav Sharma, Rama Chellappa, and Ajay Divakaran. 3 アンカン・バンサル、カラン・シッカ、ゴーラヴ・シャーマ、ラマ・チェラッパ、アジャイ・ディヴァカラン。 0.38
Zero-shot object detection. ゼロショットオブジェクト検出。 0.81
In Proceedings of the European Conference on Computer Vision (ECCV), 2018. 2018年 欧州コンピュータビジョン会議(eccv)開催。 0.48
2, 5, 6 [3] Gedas Bertasius and Lorenzo Torresani. 2, 5, 6 [3]ゲダス・ベルタシウスとロレンツォ・トレサニ。 0.48
Cobe: Contextualized object embeddings from narrated instructional video. Cobe: ナレーションビデオからのコンテキスト化されたオブジェクトの埋め込み。 0.64
In Advances in Neural Information Processing Systems, 2020. ニューラル情報処理システムの進歩 -2020年- 0.68
3 [4] Hakan Bilen and Andrea Vedaldi. 3 ヘーカン・ビレンとアンドレア・ヴェダルディ。 0.37
Weakly supervised deep detection networks. 弱教師付き深度検知ネットワーク。 0.68
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2016年のieee conference on computer vision and pattern recognition (cvpr)で発表された。 0.66
2 [5] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll´ar, and C Lawrence Zitnick. 2 5]ジンレイ・チェン、ハ・ファン、ツン・イ・リン、ラマクリシュナ・ヴェダンタム、サウラブ・グプタ、ピョートル・ドール・アー、c・ローレンス・ジトニック
訳抜け防止モード: 2 [5 ]シンレイチェン、ホーファン、ツング-李林、 Ramakrishna Vedantam、Saurabh Gupta、Piotr Doll ́ar、C Lawrence Zitnick。
0.57
Microsoft coco captions: Data arXiv preprint collection and evaluation server. Microsoftのココキャプション: データ arXiv プレプリントの収集と評価サーバ。 0.79
arXiv:1504.00325, 2015. arXiv:1504.00325, 2015 0.35
5 [6] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. 5 6]円春チェン、リンジー・リー、リヒテン・ユ、アフマド・エル・ホリー、ファイサル・アフメド、ジー・ガン、ユー・チェン、ジンジュ・リウ
訳抜け防止モード: 5 【6 ]円-陳忠・林江李・利チェン・ユ Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng そしてJingjing Liu。
0.61
Uniter: Universal image-text representation learning. Uniter: ユニバーサルイメージテキスト表現学習。 0.82
In European conference on computer vision, pages 104–120. 欧州コンピュータビジョン会議』104-120頁。 0.65
Springer, 2020. スプリンガー、2020年。 0.59
2, 4 [7] Zhenfang Chen, Lin Ma, Wenhan Luo, and KwanYee Kenneth Wong. 2, 4 7] チェンファン・チェン、リン・マ、ウェンハン・ルー、クワニー・ケネス・ウォン 0.46
Weakly-supervised spatiotemporally grounding natural sentence in video. 弱教師付き時空間接地自然文の映像化 0.44
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019. 第57回計算言語学会年次大会を終えて 0.37
3 Jakob Verbeek, 3 Jakob Verbeek 0.30
and Cordelia Schmid. そしてCordelia Schmid。 0.67
Weakly supervised object localization with multi-fold multiple instance learning. マルチフォールドな複数インスタンス学習による弱教師付きオブジェクトローカライズ。 0.68
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017 0.38
2 [8] Ramazan Gokberk Cinbis, 2 [8]Ramazan Gokberk Cinbis, 0.40
[9] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 9]jia deng、wei dong、richard socher、li-jia li、kai li、li fei-fei。 0.56
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009. 2009年、ieee conference on computer vision and pattern recognition。 0.60
5, 6 [10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 5, 6 [10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.41
BERT: pre-training of deep bidirectional transformers for language understanding. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.39
3, 4, 5 of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019. 3, 4, 5 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019。 0.41
2 [12] Simon Ging, Mohammadreza Zolfaghari, H Pirsiavash, and Thomas Brox. 2 12]Simon Ging、Mohammadreza Zolfaghari、H Pirsiavash、Thomas Brox。 0.53
Coot: Cooperative hierarchical transformer for video-text representation learnIn Advances in Neural Information Processing ing. Systems (NeurIPS), 2020. coot: ビデオテキスト表現のための協調階層型トランスフォーマ : ニューラル情報処理システム(neurips,2020)の進歩 0.73
2 [13] Xiuye Gu, Tsung-Yi Lin, Weicheng Kuo, and Yin Cui. 2 [13]Xiuye Gu,tsung-Yi Lin,Weicheng Kuo,Yin Cui。 0.59
Open-vocabulary object detection via vision and lanIn International Conguage knowledge distillation. 視力とランイン国際コンゲージ知識蒸留による開語彙オブジェクト検出 0.74
ference on Learning Representations, 2022. 英語) ference on learning representations, 2022。 0.74
1, 3, 6 [14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 1, 3, 6 [14]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.48
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2016年、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) に参加。 0.78
5 [15] Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, and Jianlong Fu. 5 [15]Zhicheng Huang、Zhaoyang Zeng、Bei Liu、Dongmei Fu、Jianlong Fu。 0.38
Pixel-bert: Aligning image pixels with text by deep multi-modal transformers. pixel-bert: ディープマルチモーダルトランスフォーマーによる画像ピクセルとテキストの整合。 0.70
arXiv preprint arXiv:2004.00849, 2020. arxiv プレプリント arxiv:2004.00849, 2020 0.41
4 [16] Dat Huynh, Jason Kuen, Zhe Lin, Jiuxiang Gu, and Ehsan Elhamifar. 4 16]Dat Huynh, Jason Kuen, Zhe Lin, Jiuxiang Gu, Ehsan Elhamifar。 0.38
Open-vocabulary instance segmentation via robust cross-modal pseudo-labeling. ロバストなクロスモーダル擬似ラベルによるオープンボキャブラリーインスタンスセグメンテーション。 0.44
arXiv preprint arXiv:2111.12698, 2021. arXiv preprint arXiv:2111.12698, 2021 0.40
3, 6 [17] Jisoo Jeong, Seungeui Lee, Jeesoo Kim, and Nojun Kwak. 3, 6 【17】十宗雄、李宗水、キム・ジェーソー、ノジュン・クァク 0.43
Consistency-based semi-supervised learning for object detection. オブジェクト検出のための一貫性に基づく半教師付き学習 0.52
In Advances in Neural Information Processing Systems, 2019. 2019年 ニューラル・インフォメーション・プロセッシング・システムの進歩。 0.46
2 [18] Dahun Kim, Tsung-Yi Lin, Anelia Angelova, In So Kweon, and Weicheng Kuo. 2 [18]大春金、通陽林、アネリア・アンジェロヴァ、イン・ソ・クワイ、ワイヒョン・クオ。 0.46
Learning open-world object proposals without learning to classify. 分類を学ばずに、オープンワールドオブジェクトの提案を学ぶ。 0.59
arXiv preprint arXiv:2108.06753, 2021. arXiv preprint arXiv:2108.06753, 2021 0.40
3, 5 [19] Benjamin Klein, Guy Lev, Gil Sadeh, and Lior Wolf. 3, 5 19]ベンジャミン・クライン、ガイ・レヴ、ギル・サディー、リア・ウルフ 0.46
Associating neural word embeddings with deep image representations using fisher vectors. 漁師ベクトルを用いたニューラルワード埋め込みと深部画像表現の関連付け 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. 2015年のieee conference on computer vision and pattern recognitionで発表された。 0.69
2 [20] Satoshi Kosugi, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2 【20】小杉佐利、山崎俊彦、相沢清治 0.46
Object-aware instance labeling for weakly In Proceedings of the supervised object detection. 教師付きオブジェクト検出の弱いIn Proceedingのオブジェクト認識インスタンスラベル。 0.63
IEEE/CVF International Conference on Computer Vision (ICCV), 2019. IEEE/CVF International Conference on Computer Vision (ICCV) 2019参加。 0.46
2 [21] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al Visual genome: Connecting language and vision using crowdsourced dense image annotations. 2 Ranjay Krishna氏、Yuke Zhu氏、Oliver Groth氏、Justin Johnson氏、Kenji Hata氏、Joshua Kravitz氏、Stephanie Chen氏、Yannis Kalantidis氏、Li-Jia Li氏、David A Shamma氏、その他ビジュアルゲノム:クラウドソースされた高密度画像アノテーションを使って言語とビジョンを接続する。
訳抜け防止モード: 2 [21 ]Ranjay Krishna,Yuke Zhu,Oliver Groth, Justin Johnson, Hata Kenji, Joshua Kravitz, Stephanie Chen Yannis Kalantidis, Li - Jia Li, David A Shamma 視覚ゲノム クラウドソースされた高密度画像アノテーションを用いた言語とビジョンの接続。
0.63
International journal of computer vision, 2017. international journal of computer vision、2017年。 0.86
5 [11] Jianfeng Dong, Xirong Li, Chaoxi Xu, Shouling Ji, Yuan He, Gang Yang, and Xun Wang. 5 [11]ジャンファンドン、Xirong Li、Chaoxi Xu、Shouling Ji、Yuan He、Gang Yang、Xun Wang。 0.53
Dual encoding for zero-example video retrieval. ゼロサンプルビデオ検索のためのデュアルエンコーディング 0.69
In Proceedings [22] Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al Oscar: Object-semantics 手続き中 [22]Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al Oscar: Object-semantics 0.53
英語(論文から抽出)日本語訳スコア
aligned pre-training for vision-language tasks. 視覚言語タスクのための事前トレーニング。 0.56
In European Conference on Computer Vision, 2020. 2020年、欧州コンピュータビジョン会議に参加。 0.78
2 [23] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. 2 [23]tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar, C Lawrence Zitnick。
訳抜け防止モード: 2 [23]ツン - 李林、マイケル・ミア、セルゲイ・ベロンギー James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar C Lawrence Zitnick氏。
0.63
Microsoft coco: Common objects in context. Microsoft Coco: コンテキスト内の共通オブジェクト。 0.83
In European conference on computer vision, 2014. 2014年、欧州コンピュータビジョン会議に参加。 0.80
5 [24] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C. Lawrence Zitnick. 5 ツン・ヨン、マイケル・ミア、セルゲイ・ベロンギー、ジェームズ・ヘイズ、ピエトロ・ペローナ、デヴァ・ラマナン、ピョートル・ドール、C・ローレンス・ジトニック。
訳抜け防止モード: 5 [24]ツン - 李林、マイケル・ミア、セルゲイ・ベロンギー James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar そしてC・ローレンス・ジトニック。
0.58
Microsoft coco: Common objects in context. Microsoft Coco: コンテキスト内の共通オブジェクト。 0.83
In European Conference on Computer Vision (ECCV), 2014. 2014年、欧州コンピュータビジョン会議(ECCV)に参加。 0.81
1 [25] Yen-Cheng Liu, Chih-Yao Ma, Zijian He, Chia-Wen Kuo, Kan Chen, Peizhao Zhang, Bichen Wu, Zsolt Kira, and Peter Vajda. 1 [25] Yen-Cheng Liu, Chih-Yao Ma, Zijian He, Chia-Wen Kuo, Kan Chen, Peizhao Zhang, Bichen Wu, Zsolt Kira, Peter Vajda。
訳抜け防止モード: 1 【25円】-チェン・リウ、チホ-ヤオ・マ、ジアン・ヘ チア-ウェン・クオ、カン・チェン、ピーシャ・ジン、ビチェン・ウー zsolt kiraとpeter vajdaだ。
0.47
Unbiased teacher for semisupervised object detection. 半教師対象検出のための無バイアス教師 0.59
In International Conference on Learning Representations, 2021. 2021年、国際学習表現会議に参加。 0.78
2 [26] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 2 [26]Jiasen Lu、Dhruv Batra、Devi Parikh、Stefan Lee。 0.37
Vilbert: pretraining task-agnostic visiolinguistic repIn Proresentations for vision-and-language tasks. Vilbert: タスク非依存の視覚言語的反響を事前訓練する。 0.57
ceedings of the 33rd International Conference on Neural Information Processing Systems, 2019. 第33回神経情報処理システム国際会議に参加して 0.62
2, 4 [27] Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, and Andrew Zisserman. 2, 4 antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, and Andrew Zisserman. 0.39
Thinking fast and slow: Efficient text-to-visual retrieval with transformers. 速く、ゆっくり考える: トランスフォーマーによる効率的なテキストから視覚的検索。 0.58
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021. ieee/cvf conference on computer vision and pattern recognition(cvpr)202 1年開催。 0.59
2, 4 [28] Jeffrey Pennington, Richard Socher, and Christopher D Manning. 2, 4 28]ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。 0.50
Glove: Global vectors for word repIn Proceedings of the 2014 conference resentation. Glove: ワードレポジトリのグローバルベクター 2014年のカンファレンスのProceedingsです。 0.63
on empirical methods in natural language processing (EMNLP). 自然言語処理(EMNLP)における経験的手法について。 0.66
4 [29] Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan Tran, and Abhinav Shrivastava. 4 Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan Tran, Abhinav Shrivastava。
訳抜け防止モード: 4 [29 ]ホイ・パム,クシャル・カフレ,ジリン, Zhihong Ding、Scott Cohen、Quan Tran、Abhinav Shrivastava。
0.50
Learning to predict visual attributes in the wild. 野生の視覚属性を予測することを学ぶこと。 0.73
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021. ieee/cvf conference on computer vision and pattern recognition(cvpr)202 1年開催。 0.59
2, 5 [30] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al Learning transferable visual models from natural language supervision. 2, 5 Alec Radford氏、Jong Wook Kim氏、Chris Hallacy氏、Aditya Ramesh氏、Gabriel Goh氏、Sandhini Agarwal氏、Girish Sastry氏、Amanda Askell氏、Pamela Mishkin氏、Jack Clark氏。
訳抜け防止モード: 2, 5 30] アレク・ラドフォード、ジョン・ウォック・キム、クリス・ハレシー aditya ramesh, gabriel goh, sandhini agarwal, girish sastry, amanda askell氏、pamela mishkin氏、jack clark氏、およびal learning transferable visual models from natural language supervisor。
0.55
In International Conference on Machine Learning, pages 8748–8763. 機械学習に関する国際会議』8748-8763頁。 0.76
PMLR, 2021. PMLR、2021年。 0.80
2, 6 [31] Shafin Rahman, Salman Khan, and Nick Barnes. 2, 6 シャフィン・ラーマン サルマン・カーン ニック・バーンズ 0.37
Improved visual-semantic alignment for zero-shot object detection. ゼロショット物体検出のためのビジュアル・セマンティクスアライメントの改善 0.61
Proceedings of the AAAI Conference on Artificial Intelligence, 2020. AAAI Conference on Artificial Intelligence, 2020 に参加して 0.79
3, 6 [32] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 3, 6 [32]シェーキング・レン、カイミング・ヘ、ロス・ギルシック、ジャン・サン。 0.42
Faster r-cnn: Towards real-time object detection with region proposal networks. Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.69
In Advances in Neural Information Processing Systems, 2015. 2015年、ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems)。 0.67
3, 5 [33] Zhongzheng Ren, Zhiding Yu, Xiaodong Yang, MingYu Liu, Yong Jae Lee, Alexander G. Schwing, and Jan Kautz. 3, 5 [33]Zhongzheng Ren、Zhiding Yu、Xiaodong Yang、MingYu Liu、Yongjae Lee、Alexander G. Schwing、Jan Kautz。
訳抜け防止モード: 3, 5 〔33〕宗宗蓮、宗光、玄堂陽、 ミンユ・リュー、ヨン・ジェ・リー、アレクサンダー・g・シュウィング そしてjan kautz。
0.50
Instance-aware, context-focused, and memoryefficient weakly supervised object detection. インスタンス対応、コンテキスト重視、メモリ効率の弱いオブジェクト検出。 0.72
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020. ieee/cvf conference on computer vision and pattern recognition (cvpr) 2020で発表された。 0.64
2 [34] Arka Sadhu, Kan Chen, and Ram Nevatia. 2 [34]Arka Sadhu、Kan Chen、Ram Nevatia。 0.36
Video object grounding using semantic roles in language In Proceedings of the IEEE/CVF Condescription. 言語における意味的役割を用いたビデオオブジェクトのグラウンド化 IEEE/CVF Condescriptionの証明 0.73
ference on Computer Vision and Pattern Recognition (CVPR), 2020. コンピュータビジョンとパターン認識(CVPR)、2020年。 0.67
3 [35] Kihyuk Sohn, Zizhao Zhang, Chun-Liang Li, Han Zhang, Chen-Yu Lee, and Tomas Pfister. 3 [35]Khyuk Sohn、Zizhao Zhang、Chun-Liang Li、Han Zhang、Chen-Yu Lee、Tomas Pfister。 0.41
A simple semi-supervised learning framework for object detection. オブジェクト検出のためのシンプルな半教師付き学習フレームワーク。 0.69
arXiv preprint arXiv:2005.04757, 2020. arxiv プレプリント arxiv:2005.04757, 2020 0.44
2 [36] Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai. 2 [36]Weijie Su、Xizhou Zhu、Yue Cao、Bin Li、Lewei Lu、Furu Wei、Jifeng Dai。
訳抜け防止モード: 2 [36 ]ワイジー・スー、清州周、ユエ・カオ Bin Li, Lewei Lu, Furu Wei, Jifeng Dai 。
0.52
Vl-bert: Pre-training of In Internageneric visual-linguistic representations. vl-bert:nageneric visual-linguistic representationsの事前学習。 0.63
tional Conference on Learning Representations, 2019. 2019年 学習表現に関する国際会議。 0.73
2, 4 [37] Hao Tan and Mohit Bansal. 2, 4 [37]ハオタンとモヒト・バンサル 0.44
Lxmert: Learning crossmodality encoder representations from transformers. Lxmert: トランスフォーマーからモダリティエンコーダ表現を学ぶこと。 0.75
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019. 第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)に参加して
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して
0.78
2 [38] Liwei Wang, Yin Li, Jing Huang, and Svetlana Lazebnik. 2 [38]Liwei Wang、Yin Li、Jing Huang、Svetlana Lazebnik。 0.38
Learning two-branch neural networks for imageIEEE Transactions on Pattern text matching tasks. パターンテキストマッチングタスクにおける画像処理のための2分岐ニューラルネットワークの学習 0.70
Analysis and Machine Intelligence, 2018. 分析とマシンインテリジェンス、2018年。 0.76
2 [39] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R´emi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 2 39] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R ́emi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander M. Rush ]
訳抜け防止モード: 2 [39 ]Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac Tim Rault, R ́emi Louf, Morgan Funtowicz, Joe Davison Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger マリアマ・ドレーム(Mariama Drame)、クエンティン・ロースト(Quentin Lhoest)、アレクサンダー・M・ラッシュ(Alexander M. Rush)。
0.69
Transformers: State-of-the-art natural language processing. Transformers: 最先端の自然言語処理。 0.80
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020. 自然言語処理における経験的手法に関する2020年会議(system demonstrations, 2020)の議事録。 0.77
5 [40] Yuxin Wu, 5 [40]ユキシン・ウー(Yuxin Wu) 0.57
Alexander Kirillov, アレクサンドル・キリロフ 0.61
Massa, Wan-Yen Lo, Detectron2. Massa, Wan-Yen Lo, Detectron2 0.44
facebookresearch / detectron2, 5 facebookresearch / detectron2, 5 0.50
Francisco and Ross Girshick. フランシスコとロス・ガーシック 0.63
https : / / github . https : / / github です。 0.86
com / 2019. 2019年 - 2019年。 0.57
英語(論文から抽出)日本語訳スコア
[41] Alireza Zareian, Kevin Dela Rosa, Derek Hao Hu, and Shih-Fu Chang. [41]Alireza Zareian、Kevin Dela Rosa、Derek Hao Hu、Shih-Fu Chang。 0.37
Open-vocabulary object detection using captions. 字幕を用いた開語彙オブジェクト検出 0.66
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021. ieee/cvf conference on computer vision and pattern recognition(cvpr)202 1年開催。 0.59
1, 3, 4, 6, 7 1, 3, 4, 6, 7 0.43
[42] Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, and Jianfeng Gao. [42]Pengchuan Zhang、Xiujun Li、Xiaowei Hu、Jianwei Yang、Lei Zhang、Lijuan Wang、Yejin Choi、Jianfeng Gao。 0.35
Vinvl: Revisiting visual representations In Proceedings of the in vision-language models. vinvl: 視覚言語モデルの手続きにおける視覚表現の再検討。 0.80
IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021 0.45
2 [43] Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu, and Lianli Gao. 2 [43]周張、周周、陽周、清王、華宗理、リアンリ・ガオ。 0.42
Where does it exist: Spatio-temporal video grounding for multi-form sentences. それはどこに存在するのか: 多形文のための時空間ビデオグラウンド。 0.55
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020. ieee/cvf conference on computer vision and pattern recognition (cvpr) 2020で発表された。 0.64
3 [44] Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al Regionclip: Region-based language-image pretraining. 3 [44]Yiwu Zhong,Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al Regionclip: Region-based language-image pretraining。
訳抜け防止モード: 3 [44 ]Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, 中元理、ノエル・コーデッラ、リウニアン・ハラルドリー、ルワンジー周 Xiyang Dai, Lu Yuan, Yin Li, et al Regionclip : Region - Based Language - Image Pretraining
0.57
arXiv preprint arXiv:2112.09106, 2021. arXiv preprint arXiv:2112.09106, 2021 0.40
1, 3, 6 [45] Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason Corso, and Jianfeng Gao. 1, 3, 6 [45]ルウィ・周、ハミド・パランジ、レイ・ジン、フードン・フ、ジェイソン・コルソ、ジャンフェン・ガオ 0.40
Unified visionlanguage pre-training for image captioning and vqa. 画像キャプションとvqaのための統一視覚言語事前学習 0.60
In Proceedings of the AAAI Conference on Artificial Intelligence, 2020. AAAI Conference on Artificial Intelligence, 2020に参加して 0.72
2 [46] Pengkai Zhu, Hanxiao Wang, 2 [46]Pengkai Zhu,Hanxiao Wang, 0.41
and Venkatesh Saligrama. そしてVenkatesh Saligrama。 0.73
Don’t even look once: Synthesizing In Proceedings of features for zero-shot detection. 一度も見てはいけない: ゼロショット検出のための一連の機能を合成する。 0.62
the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、2020年。 0.45
2, 6 2, 6 0.42
英語(論文から抽出)日本語訳スコア
A. Ablation Experiments Two-stage model performs best. a. アブレーション実験 2段階モデルが最も良い。 0.63
In Table 6, we show the extended performance of our method using single stage, either LSM or STT, and fine-tuning different sets of the backbone weights during the STT stage. 表6では,lsmとsttのいずれでも,単一ステージを用いた拡張性能を示し,sstステージにおけるバックボーン重みの異なる組を微調整する。 0.69
We can observe two main results: first, using both stages is crucial to detect novel objects. まず、両方のステージを使用することは、新しいオブジェクトを検出するのに不可欠です。
訳抜け防止モード: 主な結果は2つある。 まず どちらの段階でも 新しい物体を 検出することが重要です
0.64
Second, freezing the backbone weights of the 1st and 2nd ResNet blocks during the STT stage results in the best configuration for both, novel and known, performances. 第2に、STTステージにおける第1および第2ResNetブロックのバックボーン重みの凍結は、新しい、既知の両方のパフォーマンスに最適な構成をもたらす。 0.70
B. Per Class Performance B. クラス毎のパフォーマンス 0.88
Figure 5 presents the difference of AP per class when considering the generalized setup, all classes together, minus the AP for the individual setup, only the novel or only the known classes. 図5は、一般化されたセットアップ、すべてのクラス、個々のセットアップのAPを減らし、新規または既知のクラスのみを考慮すれば、クラス毎のAPの違いを示す。 0.77
Most of the scores present a drop when considering the generalized case. ほとんどのスコアは、一般化されたケースを考慮すると低下を示す。 0.60
Analyzing cases where this drop is larger than 3.5 AP (the red bars in Figure 5) we can deduce that these classes are mostly confused. このドロップが3.5 AP(図5の赤いバー)よりも大きいケースを分析すると、これらのクラスがほとんど混乱していると推測できる。
訳抜け防止モード: この落差が3.5 AP(図5の赤い棒)より大きい場合の分析 これらのクラスは ほとんど混乱していると推測できます
0.80
Figures 6 and 7 show some qualitative examples of our method. 図6と7は、我々の方法の定性的な例を示している。 0.65
We show the ground truth image with annotations and results using our method for comparison. 比較のために本手法を用いて,アノテーションと結果を用いた実画像を示す。 0.68
In Figure 6 we can observe that classes such as bowl and cup are frequently confused, and similar error occurs for classes: fork, knife and spoon. 図6では、ボウルやカップのようなクラスが頻繁に混同され、同様のエラーがフォーク、ナイフ、スプーンといったクラスで発生します。 0.72
These errors occur due to the fact that these classes look similar or appear together very often. これらのエラーは、これらのクラスがよく似ているか、しばしば一緒に現れるという事実によって起こります。
訳抜け防止モード: これらの誤りは これらのクラスはよく似ているか、よく一緒に現れる。
0.75
These type of errors are also noticeable between other such classes like cow/sheep/dog and snowboard/skis/skate board. この種のエラーは、牛/シープ/ドッグやスノーボード/スキー/スケートボードといった他のクラスでも顕著である。 0.55
The class toaster is a special case since it is the class with the least instances present in the dataset (only 9 vs a median of 275), which makes it harder for our method to distinguish this class among the known set and the task becomes harder when considering all 65 classes. クラストースターは、データセットに存在するインスタンスが最小であるクラス(中央値が275に対して9つしかない)であるため、このクラスを既知のセットと区別することが難しくなり、65クラスすべてを考慮するとタスクが難しくなるため、特別なケースである。 0.78
C. Qualitative examples Figures 6 and 7 show some random qualitative examples of LocOv . c. 定性例 図 6 と 7 は、LocOv のランダムな定性的例を示している。 0.69
Our method is capable of discovering novel classes such as cat, dog, sink, bus with high confidence, specially when there is no ambiguity or similarity with other categories. 本手法は, 猫, 犬, 沈み込み, バスなどの新しいクラスを, 特に他のカテゴリーとあいまいさや類似性がない場合に, 高い信頼性で発見することができる。 0.72
Similar visual classes such as fork, knife and spoon; cow and sheep; cat and dog; couch and bed; or snowboard, skis, and skateboard or are sometimes confused by our model. フォーク、ナイフ、スプーン、牛と羊、猫と犬、ソファとベッド、スノーボード、スキー、スケートボードのような視覚的なクラスは、私たちのモデルによって混同されることがある。 0.74
英語(論文から抽出)日本語訳スコア
Table 6. Comparison of the different stages of the model on the novel object detection. 表6。 新規物体検出におけるモデルの異なる段階の比較 0.50
The table also shows different configurations of model update in the STT stage by freezing parts of the backbone network 表はまた、バックボーンネットワークの一部を凍結することで、STTステージにおけるモデル更新の異なる構成を示す。
訳抜け防止モード: テーブルはまた、STTステージにおけるモデル更新の異なる構成も示す。 背骨ネットワークの凍った部分
0.88
1-4 1-3 LSM STT Freezing blocks 1-2 AP (cid:88) 17.17 (cid:88) (cid:88) 16.77 (cid:88) 15.96 (cid:88) 0.73 0.21 1-4 1-3 LSM STT凍結ブロック 1-2 AP (cid:88) 17.17 (cid:88) 16.77 (cid:88) 15.96 (cid:88) 0.73 0.21 0.30
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
(cid:88) (cid:88) (cid:88) (出典:88)(出典:88)(出典:88) 0.52
(cid:88) (cid:88) (cid:88) (cid:88) 0.39
(cid:88) Novel (17) (cid:88) 小説(17) 0.56
AP50 30.86 30.91 29.09 1.89 0.31 AP50 30.86 30.91 29.09 1.89 0.31 0.23
AP75 16.78 16.24 15.59 0.37 0.21 AP75 16.78 16.24 15.59 0.37 0.21 0.23
AP 30.79 30.10 29.14 0.82 33.23 AP 30.79 30.10 29.14 0.82 33.23 0.24
AP50 50.68 49.71 48.50 2.06 53.43 AP50 50.68 49.71 48.50 2.06 53.43 0.23
AP75 32.21 31.14 30.63 0.48 35.03 AP75 32.21 31.14 30.63 0.48 35.03 0.23
Known (48) Generalized 通称(48) 一般化 0.63
AP 26.14 25.44 24.82 0.89 24.38 AP 26.14 25.44 24.82 0.89 24.38 0.24
AP50 43.80 43.14 41.99 2.27 39.19 AP50 43.80 43.14 41.99 2.27 39.19 0.23
AP75 27.05 25.98 25.73 0.52 25.72 AP75 27.05 25.98 25.73 0.52 25.72 0.23
Figure 5. We plot the difference in AP score when considering the generalized setup (all classes together) as compare to considering the individual sets of known and novel separately. 図5。 一般化された設定(全てのクラスをまとめて)を考えるとき,APスコアの差を,知識と小説の集合を個別に考える場合と比較する。 0.74
Most of the classes present a drop when considering all classes together. ほとんどのクラスは、すべてのクラスを一緒に考えるときにドロップします。 0.67
Red bars correspond to classes with a drop larger than 3.5 AP. 赤いバーは3.5APより大きいクラスに対応する。 0.73
英語(論文から抽出)日本語訳スコア
(a) Ground Truth (b) Our Results (a)根拠の真理 (b)我々の結果 0.79
(c) Ground Truth (d) Our Results (c)根拠の真理 (d)結果 0.52
Figure 6. Qualitative results obtained using LocOv on the COCO dataset. 図6。 COCOデータセット上でLocOvを用いた定性的な結果を得た。 0.67
Novel classes are shown in magenta while known are in green. 新しいクラスはマゼンタで示され、既知のクラスは緑である。 0.56
(Best viewed in color) (色が一番よく見える) 0.84
英語(論文から抽出)日本語訳スコア
(a) Ground Truth (b) Our Results (a)根拠の真理 (b)我々の結果 0.79
(c) Ground Truth (d) Our Results (c)根拠の真理 (d)結果 0.52
Figure 7. Qualitative results obtained using LocOv on the COCO dataset. 図7。 COCOデータセット上でLocOvを用いた定性的な結果を得た。 0.67
Novel classes are shown in magenta while known are in green. 新しいクラスはマゼンタで示され、既知のクラスは緑である。 0.56
(Best viewed in color) (色が一番よく見える) 0.84
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。