論文の概要: Detecting Twenty-thousand Classes using Image-level Supervision
- arxiv url: http://arxiv.org/abs/2201.02605v2
- Date: Mon, 10 Jan 2022 02:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 12:42:06.807504
- Title: Detecting Twenty-thousand Classes using Image-level Supervision
- Title(参考訳): イメージレベルの監督によるクラス検出
- Authors: Xingyi Zhou, Rohit Girdhar, Armand Joulin, Phillip Kr\"ahenb\"uhl,
Ishan Misra
- Abstract要約: 検出器の語彙を数万の概念に拡張するDeticを提案する。
以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てていない。
初めて、ImageNetデータセットの21のクラスすべてで検出器をトレーニングします。
- 参考スコア(独自算出の注目度): 40.948910656287865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current object detectors are limited in vocabulary size due to the small
scale of detection datasets. Image classifiers, on the other hand, reason about
much larger vocabularies, as their datasets are larger and easier to collect.
We propose Detic, which simply trains the classifiers of a detector on image
classification data and thus expands the vocabulary of detectors to tens of
thousands of concepts. Unlike prior work, Detic does not assign image labels to
boxes based on model predictions, making it much easier to implement and
compatible with a range of detection architectures and backbones. Our results
show that Detic yields excellent detectors even for classes without box
annotations. It outperforms prior work on both open-vocabulary and long-tail
detection benchmarks. Detic provides a gain of 2.4 mAP for all classes and 8.3
mAP for novel classes on the open-vocabulary LVIS benchmark. On the standard
LVIS benchmark, Detic reaches 41.7 mAP for all classes and 41.7 mAP for rare
classes. For the first time, we train a detector with all the
twenty-one-thousand classes of the ImageNet dataset and show that it
generalizes to new datasets without fine-tuning. Code is available at
https://github.com/facebookresearch/Detic.
- Abstract(参考訳): 現在のオブジェクト検出器は、小さな検出データセットのため、語彙サイズが限られている。
一方、画像分類器は、データセットがより大きく、より収集しやすいので、はるかに大きな語彙を推論します。
本稿では、画像分類データに基づいて検出器の分類器を訓練し、検出器の語彙を数万の概念に拡張するDeticを提案する。
以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てておらず、さまざまな検出アーキテクチャやバックボーンの実装と互換性をより容易にする。
ボックスアノテーションのないクラスでも,Deticは優れた検出値が得られることを示す。
これは、open-vocabularyとlong-tail検出ベンチマークの両方の以前の作業よりも優れている。
Deticは、すべてのクラスで2.4mAP、オープン語彙のLVISベンチマークで新しいクラスで8.3mAPを提供する。
標準のLVISベンチマークでは、Deticはすべてのクラスで41.7 mAP、レアクラスでは41.7 mAPに達する。
初めて、imagenetデータセットの21番目のクラスすべてで検出器をトレーニングし、微調整なしで新しいデータセットに一般化できることを示します。
コードはhttps://github.com/facebookresearch/Detic.comで入手できる。
関連論文リスト
- SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Language-conditioned Detection Transformer [4.8951183832371]
本フレームワークでは,画像レベルのラベルと詳細な検出アノテーションが利用可能である。
まず、完全に教師付き検出データに基づいて、言語条件のオブジェクト検出器を訓練する。
この検出器は、画像レベルのラベルを持つ擬似ラベル画像に使用される。
最後に、擬似注釈画像上に無条件の開語彙検出器を訓練する。
論文 参考訳(メタデータ) (2023-11-29T18:53:47Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。