論文の概要: Aligning Bag of Regions for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2302.13996v1
- Date: Mon, 27 Feb 2023 17:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:32:27.796392
- Title: Aligning Bag of Regions for Open-Vocabulary Object Detection
- Title(参考訳): 開語彙オブジェクト検出のための領域のアライジングバッグ
- Authors: Size Wu, Wenwei Zhang, Sheng Jin, Wentao Liu, Chen Change Loy
- Abstract要約: 本稿では,各地域を超えて,各地域のバッグを埋め込む方法を提案する。
提案手法は,バッグとしてコンテキスト的相互関連領域をグループ化する。
オープンボキャブラリCOCOとLVISベンチマークの新たなカテゴリでは,従来の4.6ボックスAP50と2.8マスクAPよりも優れている。
- 参考スコア(独自算出の注目度): 74.89762864838042
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained vision-language models (VLMs) learn to align vision and language
representations on large-scale datasets, where each image-text pair usually
contains a bag of semantic concepts. However, existing open-vocabulary object
detectors only align region embeddings individually with the corresponding
features extracted from the VLMs. Such a design leaves the compositional
structure of semantic concepts in a scene under-exploited, although the
structure may be implicitly learned by the VLMs. In this work, we propose to
align the embedding of bag of regions beyond individual regions. The proposed
method groups contextually interrelated regions as a bag. The embeddings of
regions in a bag are treated as embeddings of words in a sentence, and they are
sent to the text encoder of a VLM to obtain the bag-of-regions embedding, which
is learned to be aligned to the corresponding features extracted by a frozen
VLM. Applied to the commonly used Faster R-CNN, our approach surpasses the
previous best results by 4.6 box AP50 and 2.8 mask AP on novel categories of
open-vocabulary COCO and LVIS benchmarks, respectively. Code and models are
available at https://github.com/wusize/ovdet.
- Abstract(参考訳): 事前学習された視覚言語モデル(VLM)は、視覚と言語表現を大規模データセットに整列させることを学ぶ。
しかし、既存のオープンボキャブラリオブジェクト検出器は、VLMから抽出された対応する特徴と個別に領域を埋め込むだけである。
このようなデザインは、VLMによって暗黙的に学習されるが、セマンティックな概念の構成構造を未公開のシーンに残す。
本研究では,各領域にまたがる領域の埋め込みを整理する手法を提案する。
提案手法は,コンテキスト関連領域をバッグとしてグループ化する。
バッグ内の領域の埋め込みを文中の単語の埋め込みとして処理し、VLMのテキストエンコーダに送信して、凍結したVLMによって抽出された対応する特徴に整列する領域の埋め込みを得る。
一般的な高速r-cnnに適用すると,オープンボカブラリーcocoとlvisベンチマークの新たなカテゴリにおいて,従来の4.6 box ap50と2.8 mask apを上回った。
コードとモデルはhttps://github.com/wusize/ovdetで入手できる。
関連論文リスト
- LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。