論文の概要: Region-centric Image-Language Pretraining for Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2310.00161v2
- Date: Fri, 19 Jul 2024 02:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:26:14.133424
- Title: Region-centric Image-Language Pretraining for Open-Vocabulary Detection
- Title(参考訳): 開語彙検出のための領域中心画像言語事前学習
- Authors: Dahun Kim, Anelia Angelova, Weicheng Kuo,
- Abstract要約: 領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
- 参考スコア(独自算出の注目度): 39.17829005627821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new open-vocabulary detection approach based on region-centric image-language pretraining to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we incorporate the detector architecture on top of the classification backbone, which better serves the region-level recognition needs of detection by enabling the detector heads to learn from large-scale image-text pairs. Using only standard contrastive loss and no pseudo-labeling, our approach is a simple yet effective extension of the contrastive learning method to learn emergent object-semantic cues. In addition, we propose a shifted-window learning approach upon window attention to make the backbone representation more robust, translation-invariant, and less biased by the window pattern. On the popular LVIS open-vocabulary detection benchmark, our approach sets a new state of the art of 37.6 mask APr using the common ViT-L backbone and public LAION dataset, and 40.5 mask APr using the DataComp-1B dataset, significantly outperforming the best existing approach by +3.7 mask APr at system level. On the COCO benchmark, we achieve very competitive 39.6 novel AP without pseudo labeling or weak supervision. In addition, we evaluate our approach on the transfer detection setup, where it demonstrates notable improvement over the baseline. Visualization reveals emerging object locality from the pretraining recipes compared to the baseline.
- Abstract(参考訳): 画像レベルの事前学習と開語彙オブジェクト検出のギャップを埋めるために,領域中心の画像言語事前学習に基づく新しい開語彙検出手法を提案する。
事前学習段階では,分類バックボーン上に検出器アーキテクチャを組み込んで,大規模な画像テキストペアから検出ヘッドを学習することにより,検出の領域レベルの認識ニーズを改善する。
提案手法は,標準のコントラスト損失のみを用い,擬似ラベル付けは行わないため,創発的オブジェクト・セマンティック・キューを学習するためのコントラスト学習法をシンプルかつ効果的に拡張する。
さらに,バックボーン表現をより堅牢にし,翻訳不変性を低減し,ウィンドウパターンに偏りを無くすために,ウィンドウアテンションにシフトウインドウ学習手法を提案する。
一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-LバックボーンとパブリックLAIONデータセットを使用した37.6マスクAPrと、DataComp-1Bデータセットを使用した40.5マスクAPrを新たに設定し、システムレベルで+3.7マスクAPrによる既存のアプローチよりも大幅に優れています。
COCOベンチマークでは、擬似ラベル付けや弱い監督なしに、39.6の新規APを非常に競争力のあるものにする。
さらに,転送検出装置に対する我々のアプローチを評価し,ベースラインに対する顕著な改善を示す。
可視化は、ベースラインと比較して事前学習されたレシピから出現するオブジェクトの局所性を明らかにする。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Contrastive Feature Masking Open-Vocabulary Vision Transformer [44.03247177599605]
コントラスト特徴マスキングビジョントランス(CFM-ViT)
Open-vocabulary Object Detection (OVD)のための画像と領域レベルの同時学習を実現する画像テキスト事前学習手法
論文 参考訳(メタデータ) (2023-09-02T01:12:48Z) - Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers [44.03247177599605]
地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:53:29Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。