論文の概要: Learning Object-Language Alignments for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2211.14843v1
- Date: Sun, 27 Nov 2022 14:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:31:13.189878
- Title: Learning Object-Language Alignments for Open-Vocabulary Object Detection
- Title(参考訳): オープンボキャブラリー物体検出のためのオブジェクト言語アライメントの学習
- Authors: Chuang Lin, Peize Sun, Yi Jiang, Ping Luo, Lizhen Qu, Gholamreza
Haffari, Zehuan Yuan and Jianfei Cai
- Abstract要約: 画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
- 参考スコア(独自算出の注目度): 83.09560814244524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing object detection methods are bounded in a fixed-set vocabulary by
costly labeled data. When dealing with novel categories, the model has to be
retrained with more bounding box annotations. Natural language supervision is
an attractive alternative for its annotation-free attributes and broader object
concepts. However, learning open-vocabulary object detection from language is
challenging since image-text pairs do not contain fine-grained object-language
alignments. Previous solutions rely on either expensive grounding annotations
or distilling classification-oriented vision models. In this paper, we propose
a novel open-vocabulary object detection framework directly learning from
image-text pair data. We formulate object-language alignment as a set matching
problem between a set of image region features and a set of word embeddings. It
enables us to train an open-vocabulary object detector on image-text pairs in a
much simple and effective way. Extensive experiments on two benchmark datasets,
COCO and LVIS, demonstrate our superior performance over the competing
approaches on novel categories, e.g. achieving 32.0% mAP on COCO and 21.7% mask
mAP on LVIS. Code is available at: https://github.com/clin1223/VLDet.
- Abstract(参考訳): 既存のオブジェクト検出方法は、高価なラベル付きデータによって固定セット語彙にバウンドされる。
新たなカテゴリを扱う場合、モデルはよりバウンディングボックスアノテーションで再トレーニングする必要があります。
自然言語監督はアノテーションのない属性とより広いオブジェクト概念の魅力的な代替手段である。
しかし、画像とテキストのペアは粒度の細かいオブジェクトと言語のアライメントを含まないため、言語からのオープン語彙オブジェクト検出の学習は困難である。
従来の解決策は高価な接地アノテーションや分類指向の視覚モデルに頼っていた。
本稿では,画像とテキストのペアデータから直接学習するオープンボキャブラリー物体検出フレームワークを提案する。
画像領域の特徴の集合と単語埋め込みの集合との一致問題としてオブジェクト指向アライメントを定式化する。
これにより、画像とテキストのペア上で、よりシンプルで効果的な方法でオープン語彙オブジェクト検出器を訓練することができる。
COCOとLVISの2つのベンチマークデータセットに関する大規模な実験は、COCOで32.0% mAP、LVISで21.7%のマスクmAPを達成するなど、新しいカテゴリで競合するアプローチよりも優れたパフォーマンスを示している。
コードはhttps://github.com/clin1223/vldet.com/。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。