論文の概要: Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model
- arxiv url: http://arxiv.org/abs/2203.14940v1
- Date: Mon, 28 Mar 2022 17:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:08:55.992590
- Title: Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model
- Title(参考訳): 視覚言語モデルを用いたオープンボキャブラリ物体検出のための学習
- Authors: Yu Du, Fangyun Wei, Zihe Zhang, Miaojing Shi, Yue Gao, Guoqi Li
- Abstract要約: オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
- 参考スコア(独自算出の注目度): 34.85604521903056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision-language pre-training shows great potential in
open-vocabulary object detection, where detectors trained on base classes are
devised for detecting new classes. The class text embedding is firstly
generated by feeding prompts to the text encoder of a pre-trained
vision-language model. It is then used as the region classifier to supervise
the training of a detector. The key element that leads to the success of this
model is the proper prompt, which requires careful words tuning and ingenious
design. To avoid laborious prompt engineering, there are some prompt
representation learning methods being proposed for the image classification
task, which however can only be sub-optimal solutions when applied to the
detection task. In this paper, we introduce a novel method, detection prompt
(DetPro), to learn continuous prompt representations for open-vocabulary object
detection based on the pre-trained vision-language model. Different from the
previous classification-oriented methods, DetPro has two highlights: 1) a
background interpretation scheme to include the proposals in image background
into the prompt training; 2) a context grading scheme to separate proposals in
image foreground for tailored prompt training. We assemble DetPro with ViLD, a
recent state-of-the-art open-world object detector, and conduct experiments on
the LVIS as well as transfer learning on the Pascal VOC, COCO, Objects365
datasets. Experimental results show that our DetPro outperforms the baseline
ViLD in all settings, e.g., +3.4 APbox and +3.0 APmask improvements on the
novel classes of LVIS. Code and models are available at
https://github.com/dyabel/detpro.
- Abstract(参考訳): 近年,視覚言語による事前学習はオープン語彙オブジェクト検出において大きな可能性を秘めている。
クラステキスト埋め込みは、事前に訓練された視覚言語モデルのテキストエンコーダにプロンプトを供給することによって、まず生成される。
その後、検出器の訓練を監督する領域分類器として使用される。
このモデルの成功につながる重要な要素は適切なプロンプトであり、注意深い単語のチューニングと巧妙な設計を必要とする。
画像分類タスクには, むだ時間を要するプロンプトエンジニアリングを回避するために, プロンプト表現学習手法が提案されているが, 検出タスクに適用した場合にのみ最適解となる。
本稿では,前訓練された視覚言語モデルに基づく開語彙物体検出のための連続的プロンプト表現を学習するための新しい手法である検出プロンプト(detpro)を提案する。
従来の分類指向のメソッドとは異なり、DetProには2つのハイライトがある。
1) 画像背景に提案を組み込む背景解釈スキームを即時訓練に組み込むこと
2) 適応型プロンプトトレーニングのための画像フォアグラウンドでの提案を分離するコンテキストグレーディングスキーム。
我々は、最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立て、LVISで実験を行い、Pascal VOC、COCO、Objects365データセットでの転送学習を行った。
実験の結果、detpro は lvis の新しいクラスにおける +3.4 apbox および +3.0 apmask の改善など、すべての設定において、ベースライン vild よりも優れています。
コードとモデルはhttps://github.com/dyabel/detproで入手できる。
関連論文リスト
- Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。