論文の概要: F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models
- arxiv url: http://arxiv.org/abs/2209.15639v1
- Date: Fri, 30 Sep 2022 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:00:04.301000
- Title: F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models
- Title(参考訳): F-VLM:凍結視覚と言語モデルを用いた開語彙オブジェクト検出
- Authors: Weicheng Kuo, Yin Cui, Xiuye Gu, AJ Piergiovanni, Anelia Angelova
- Abstract要約: F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
- 参考スコア(独自算出の注目度): 54.21757555804668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present F-VLM, a simple open-vocabulary object detection method built upon
Frozen Vision and Language Models. F-VLM simplifies the current multi-stage
training pipeline by eliminating the need for knowledge distillation or
detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1)
retains the locality-sensitive features necessary for detection, and 2) is a
strong region classifier. We finetune only the detector head and combine the
detector and VLM outputs for each region at inference time. F-VLM shows
compelling scaling behavior and achieves +6.5 mask AP improvement over the
previous state of the art on novel categories of LVIS open-vocabulary detection
benchmark. In addition, we demonstrate very competitive results on COCO
open-vocabulary detection benchmark and cross-dataset transfer detection, in
addition to significant training speed-up and compute savings. Code will be
released.
- Abstract(参考訳): F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
驚いたことに、私たちは凍結したVLMを観察しました。
1)検出に必要な局所性に敏感な特徴を保持し、
2)は強い領域分類器である。
我々は検出器ヘッドのみを微調整し、各領域のVLM出力を推論時に組み合わせる。
F-VLMは、拡張性のある振る舞いを示し、LVISオープン語彙検出ベンチマークの新たなカテゴリにおいて、従来の技術よりも+6.5マスクAPの改善を実現している。
さらに,coco open-vocabulary detection benchmark とcross-dataset transfer detection で非常に競争力のある結果を示すとともに,大幅なトレーニングスピードアップと計算の節約も示した。
コードはリリースされる。
関連論文リスト
- LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection [44.03247177599605]
本稿では,検出指向画像テキスト事前学習に基づく新しいオープン語彙検出手法を提案する。
一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-Lバックボーンを用いて40.4マスクAP$_r$の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Zero-shot Nuclei Detection via Visual-Language Pre-trained Models [19.526504045149895]
大規模視覚言語事前学習モデルは、自然シーンの下流物体検出において優れた性能を証明している。
しかし、VLPMsによるH&E画像のゼロショット核検出は未発見のままである。
本稿では,ゼロショット核検出のためのオブジェクトレベルVLPM,グラウンドド言語-画像事前学習モデルの可能性を探究する。
論文 参考訳(メタデータ) (2023-06-30T13:44:13Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching [36.31910430275781]
領域プロンプトとアンカー事前マッチングによる開語彙検出にCLIPを適用したフレームワークを提案する。
CORAはCOCO OVDベンチマークで41.7 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
論文 参考訳(メタデータ) (2023-03-23T07:13:57Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。