論文の概要: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection
- arxiv url: http://arxiv.org/abs/2211.00849v2
- Date: Sat, 29 Jul 2023 17:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 00:16:38.441071
- Title: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection
- Title(参考訳): オープンボキャブラリー物体検出のための細粒度ビジュアルテキストプロンプト駆動自己学習
- Authors: Yanxin Long, Jianhua Han, Runhui Huang, Xu Hang, Yi Zhu, Chunjing Xu,
Xiaodan Liang
- Abstract要約: オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
- 参考スコア(独自算出の注目度): 87.39089806069707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the success of vision-language methods (VLMs) in zero-shot
classification, recent works attempt to extend this line of work into object
detection by leveraging the localization ability of pre-trained VLMs and
generating pseudo labels for unseen classes in a self-training manner. However,
since the current VLMs are usually pre-trained with aligning sentence embedding
with global image embedding, the direct use of them lacks fine-grained
alignment for object instances, which is the core of detection. In this paper,
we propose a simple but effective fine-grained Visual-Text Prompt-driven
self-training paradigm for Open-Vocabulary Detection (VTP-OVD) that introduces
a fine-grained visual-text prompt adapting stage to enhance the current
self-training paradigm with a more powerful fine-grained alignment. During the
adapting stage, we enable VLM to obtain fine-grained alignment by using
learnable text prompts to resolve an auxiliary dense pixel-wise prediction
task. Furthermore, we propose a visual prompt module to provide the prior task
information (i.e., the categories need to be predicted) for the vision branch
to better adapt the pre-trained VLM to the downstream tasks. Experiments show
that our method achieves the state-of-the-art performance for open-vocabulary
object detection, e.g., 31.5% mAP on unseen classes of COCO.
- Abstract(参考訳): ゼロショット分類における視覚言語手法(VLM)の成功に触発された最近の研究は、事前学習されたVLMのローカライゼーション能力を活用して、未確認クラスの擬似ラベルを自己学習的に生成することにより、オブジェクト検出にこの線を拡張しようとしている。
しかしながら、現在のVLMは、通常、グローバルな画像埋め込みと整列した文の埋め込みで事前訓練されているため、それらを直接使用するには、検出のコアであるオブジェクトインスタンスの微粒なアライメントが欠如している。
本稿では,より強力な細粒度アライメントにより現在の自己学習パラダイムを強化するために,細粒度ビジュアルテキストプロンプト適応ステージを導入するオープンボキャブラリー検出(vtp-ovd)のための,簡便かつ効果的な細粒度ビジュアルテキストプロンプト駆動自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
さらに,事前学習したVLMを下流タスクに適応させるために,視覚枝に対して事前のタスク情報(つまり,カテゴリを予測する必要がある)を提供する視覚プロンプトモジュールを提案する。
実験の結果,COCOの未確認クラスでは,31.5% mAPなど,オープン語彙オブジェクト検出の最先端性能が得られた。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual
Concepts [14.808701042367401]
物体検出は視覚言語による事前学習には適さないと考えられる。
本稿では,多粒度視覚言語事前学習を行うためのX-VLMという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-16T07:55:26Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。