論文の概要: CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection
- arxiv url: http://arxiv.org/abs/2310.16667v1
- Date: Wed, 25 Oct 2023 14:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:23:13.533356
- Title: CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection
- Title(参考訳): CoDet: オープン語彙オブジェクト検出のための領域単語アライメント
- Authors: Chuofan Ma, Yi Jiang, Xin Wen, Zehuan Yuan, Xiaojuan Qi
- Abstract要約: CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
- 参考スコア(独自算出の注目度): 78.0010542552784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deriving reliable region-word alignment from image-text pairs is critical to
learn object-level vision-language representations for open-vocabulary object
detection. Existing methods typically rely on pre-trained or self-trained
vision-language models for alignment, which are prone to limitations in
localization accuracy or generalization capabilities. In this paper, we propose
CoDet, a novel approach that overcomes the reliance on pre-aligned
vision-language space by reformulating region-word alignment as a co-occurring
object discovery problem. Intuitively, by grouping images that mention a shared
concept in their captions, objects corresponding to the shared concept shall
exhibit high co-occurrence among the group. CoDet then leverages visual
similarities to discover the co-occurring objects and align them with the
shared concept. Extensive experiments demonstrate that CoDet has superior
performances and compelling scalability in open-vocabulary detection, e.g., by
scaling up the visual backbone, CoDet achieves 37.0 $\text{AP}^m_{novel}$ and
44.7 $\text{AP}^m_{all}$ on OV-LVIS, surpassing the previous SoTA by 4.2
$\text{AP}^m_{novel}$ and 9.8 $\text{AP}^m_{all}$. Code is available at
https://github.com/CVMI-Lab/CoDet.
- Abstract(参考訳): 画像とテキストのペアから信頼できる領域単語のアライメントを導出することは、オープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学ぶために重要である。
既存の手法は通常、アライメントのための事前訓練または自己訓練された視覚言語モデルに依存しており、これはローカライゼーションの精度や一般化の能力に制限がある。
本稿では,領域単語のアライメントを共起オブジェクト発見問題として再構成することで,事前に整列された視覚言語空間への依存を克服する新しいアプローチであるCoDetを提案する。
直感的には,そのキャプションで共有概念を言及する画像をグループ化することにより,共有概念に対応するオブジェクトは,グループ間で高い共起性を示す。
CoDetは視覚的類似性を活用して、共起オブジェクトを発見し、共有コンセプトと整合させる。
大規模な実験では、CoDetは視覚的バックボーンをスケールアップすることで37.0$\text{AP}^m_{novel}$と44.7$\text{AP}^m_{all}$をOV-LVIS上で達成し、以前のSoTAを4.2$\text{AP}^m_{novel}$と9.8$\text{AP}^m_{all}$に上回った。
コードはhttps://github.com/CVMI-Lab/CoDet.comで入手できる。
関連論文リスト
- CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。