論文の概要: PromptDet: Expand Your Detector Vocabulary with Uncurated Images
- arxiv url: http://arxiv.org/abs/2203.16513v1
- Date: Wed, 30 Mar 2022 17:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:43:24.812162
- Title: PromptDet: Expand Your Detector Vocabulary with Uncurated Images
- Title(参考訳): PromptDet:不正確な画像で検出語彙を広げる
- Authors: Chengjian Feng, Yujie Zhong, Zequn Jie, Xiangxiang Chu, Haibing Ren,
Xiaolin Wei, Weidi Xie, Lin Ma
- Abstract要約: この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
- 参考スコア(独自算出の注目度): 47.600059694034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to establish a scalable pipeline for expanding an
object detector towards novel/unseen categories, using zero manual annotations.
To achieve that, we make the following four contributions: (i) in pursuit of
generalisation, we propose a two-stage open-vocabulary object detector that
categorises each box proposal by a classifier generated from the text encoder
of a pre-trained visual-language model; (ii) To pair the visual latent space
(from RPN box proposal) with that of the pre-trained text encoder, we propose
the idea of regional prompt learning to optimise a couple of learnable prompt
vectors, converting the textual embedding space to fit those visually
object-centric images; (iii) To scale up the learning procedure towards
detecting a wider spectrum of objects, we exploit the available online
resource, iteratively updating the prompts, and later self-training the
proposed detector with pseudo labels generated on a large corpus of noisy,
uncurated web images. The self-trained detector, termed as PromptDet,
significantly improves the detection performance on categories for which manual
annotations are unavailable or hard to obtain, e.g. rare categories. Finally,
(iv) to validate the necessity of our proposed components, we conduct extensive
experiments on the challenging LVIS and MS-COCO dataset, showing superior
performance over existing approaches with fewer additional training images and
zero manual annotations whatsoever. Project page with code:
https://fcjian.github.io/promptdet.
- Abstract(参考訳): この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
それを達成するために、私たちは以下の4つの貢献をします。
i) 一般化を追求するために,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器により,各ボックスの提案を分類する2段階のオープンボキャブラリー物体検出器を提案する。
(二)事前学習したテキストエンコーダと視覚潜在空間(RPNボックスの提案から)を組み合わせて、学習可能な2つのプロンプトベクトルを最適化し、テキスト埋め込み空間を視覚中心の画像に適合させる地域的プロンプト学習のアイデアを提案する。
3) より広い範囲の物体を検出するための学習手順をスケールアップするために,利用可能なオンラインリソースを活用し,プロンプトを反復的に更新し,その後,ノイズの多い未処理のWeb画像の大規模なコーパス上に生成された擬似ラベルを用いて自己学習する。
自己学習型検出器はprompdetと呼ばれ、手動アノテーションが使用できないカテゴリや入手が難しいカテゴリ、例えばレアカテゴリの検出性能を大幅に向上させる。
最後に
(4) 提案するコンポーネントの必要性を検証するため, LVISとMS-COCOデータセットに対する広範な実験を行い, 既存のアプローチよりも優れた性能を示し, 追加のトレーニング画像が少なく, マニュアルアノテーションが全くない。
プロジェクトページとコード: https://fcjian.github.io/promptdet。
関連論文リスト
- Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。