論文の概要: F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models
- arxiv url: http://arxiv.org/abs/2209.15639v1
- Date: Fri, 30 Sep 2022 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:00:04.301000
- Title: F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models
- Title(参考訳): F-VLM:凍結視覚と言語モデルを用いた開語彙オブジェクト検出
- Authors: Weicheng Kuo, Yin Cui, Xiuye Gu, AJ Piergiovanni, Anelia Angelova
- Abstract要約: F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
- 参考スコア(独自算出の注目度): 54.21757555804668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present F-VLM, a simple open-vocabulary object detection method built upon
Frozen Vision and Language Models. F-VLM simplifies the current multi-stage
training pipeline by eliminating the need for knowledge distillation or
detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1)
retains the locality-sensitive features necessary for detection, and 2) is a
strong region classifier. We finetune only the detector head and combine the
detector and VLM outputs for each region at inference time. F-VLM shows
compelling scaling behavior and achieves +6.5 mask AP improvement over the
previous state of the art on novel categories of LVIS open-vocabulary detection
benchmark. In addition, we demonstrate very competitive results on COCO
open-vocabulary detection benchmark and cross-dataset transfer detection, in
addition to significant training speed-up and compute savings. Code will be
released.
- Abstract(参考訳): F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
驚いたことに、私たちは凍結したVLMを観察しました。
1)検出に必要な局所性に敏感な特徴を保持し、
2)は強い領域分類器である。
我々は検出器ヘッドのみを微調整し、各領域のVLM出力を推論時に組み合わせる。
F-VLMは、拡張性のある振る舞いを示し、LVISオープン語彙検出ベンチマークの新たなカテゴリにおいて、従来の技術よりも+6.5マスクAPの改善を実現している。
さらに,coco open-vocabulary detection benchmark とcross-dataset transfer detection で非常に競争力のある結果を示すとともに,大幅なトレーニングスピードアップと計算の節約も示した。
コードはリリースされる。
関連論文リスト
- MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - Zero-shot Nuclei Detection via Visual-Language Pre-trained Models [19.526504045149895]
大規模視覚言語事前学習モデルは、自然シーンの下流物体検出において優れた性能を証明している。
しかし、VLPMsによるH&E画像のゼロショット核検出は未発見のままである。
本稿では,ゼロショット核検出のためのオブジェクトレベルVLPM,グラウンドド言語-画像事前学習モデルの可能性を探究する。
論文 参考訳(メタデータ) (2023-06-30T13:44:13Z) - CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching [36.31910430275781]
領域プロンプトとアンカー事前マッチングによる開語彙検出にCLIPを適用したフレームワークを提案する。
CORAはCOCO OVDベンチマークで41.7 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
論文 参考訳(メタデータ) (2023-03-23T07:13:57Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。