論文の概要: What Makes Good Open-Vocabulary Detector: A Disassembling Perspective
- arxiv url: http://arxiv.org/abs/2309.00227v1
- Date: Fri, 1 Sep 2023 03:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:43:04.477478
- Title: What Makes Good Open-Vocabulary Detector: A Disassembling Perspective
- Title(参考訳): オープンボキャブラリー・ディテクターの作り方:分解的視点
- Authors: Jincheng Li, Chunyu Xie, Xiaoyu Wu, Bin Wang, Dawei Leng
- Abstract要約: Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
- 参考スコア(独自算出の注目度): 6.623703413255309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary detection (OVD) is a new object detection paradigm, aiming to
localize and recognize unseen objects defined by an unbounded vocabulary. This
is challenging since traditional detectors can only learn from pre-defined
categories and thus fail to detect and localize objects out of pre-defined
vocabulary. To handle the challenge, OVD leverages pre-trained cross-modal VLM,
such as CLIP, ALIGN, etc. Previous works mainly focus on the open vocabulary
classification part, with less attention on the localization part. We argue
that for a good OVD detector, both classification and localization should be
parallelly studied for the novel object categories. We show in this work that
improving localization as well as cross-modal classification complement each
other, and compose a good OVD detector jointly. We analyze three families of
OVD methods with different design emphases. We first propose a vanilla
method,i.e., cropping a bounding box obtained by a localizer and resizing it
into the CLIP. We next introduce another approach, which combines a standard
two-stage object detector with CLIP. A two-stage object detector includes a
visual backbone, a region proposal network (RPN), and a region of interest
(RoI) head. We decouple RPN and ROI head (DRR) and use RoIAlign to extract
meaningful features. In this case, it avoids resizing objects. To further
accelerate the training time and reduce the model parameters, we couple RPN and
ROI head (CRR) as the third approach. We conduct extensive experiments on these
three types of approaches in different settings. On the OVD-COCO benchmark, DRR
obtains the best performance and achieves 35.8 Novel AP$_{50}$, an absolute 2.8
gain over the previous state-of-the-art (SOTA). For OVD-LVIS, DRR surpasses the
previous SOTA by 1.9 AP$_{50}$ in rare categories. We also provide an object
detection dataset called PID and provide a baseline on PID.
- Abstract(参考訳): open-vocabulary detection (ovd) は新しいオブジェクト検出パラダイムであり、未境界語彙によって定義された未認識のオブジェクトをローカライズし認識することを目的としている。
従来の検出器は定義済みのカテゴリからしか学べず、定義済みの語彙からオブジェクトを検出してローカライズできないため、これは難しい。
この課題に対処するため、OVDはCLIP、ALIGNなどのトレーニング済みのクロスモーダルVLMを活用する。
先行研究は主にオープン語彙分類に焦点をあて、局所化にはあまり注意を払わない。
我々は、優れたovd検出器では、分類と局所化の両方が、新しい対象カテゴリに対して並列に研究されるべきであると主張する。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
我々は3種類のOVD法を異なる設計相で解析する。
まず,ローカライザーによって得られた境界ボックスを切り取り,それをクリップに再サイズするバニラ法を提案する。
次に、標準的な2段階オブジェクト検出器とCLIPを組み合わせた別のアプローチを紹介する。
2段物検出器は、視覚バックボーン、領域提案ネットワーク(RPN)、関心領域(RoI)ヘッドを含む。
RPNとROIヘッド(DRR)を分離し,RoIAlignを用いて意味のある特徴を抽出する。
この場合、オブジェクトのリサイズを回避する。
さらにトレーニング時間を短縮し,モデルのパラメータを削減するため,RPNとROIヘッド(CRR)を第3のアプローチとして組み合わせた。
これらの3種類のアプローチについて、異なる設定で広範な実験を行う。
OVD-COCOベンチマークでは、DRRは最高の性能を獲得し、以前のSOTA(State-of-the-art)よりも2.8倍の35.8ノベルAP$_{50}$を達成した。
OVD-LVIS の場合、DRR はレア圏において以前の SOTA を 1.9 AP$_{50}$ で上回る。
また、PIDと呼ばれるオブジェクト検出データセットを提供し、PIDのベースラインを提供する。
関連論文リスト
- Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection [44.92009038111696]
Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。
我々は,ライダーに基づくOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。
グローバルなローカル情報では、Large Language Model (LLM) がチェーン・オブ・シント推論に適用される。
論文 参考訳(メタデータ) (2024-07-12T02:34:11Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Described Object Detection: Liberating Object Detection with Flexible
Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-07-24T14:06:54Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching [36.31910430275781]
領域プロンプトとアンカー事前マッチングによる開語彙検出にCLIPを適用したフレームワークを提案する。
CORAはCOCO OVDベンチマークで41.7 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
論文 参考訳(メタデータ) (2023-03-23T07:13:57Z) - Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection [76.5120397167247]
そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。
オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
論文 参考訳(メタデータ) (2023-03-09T18:52:16Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。