論文の概要: SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2410.05650v1
- Date: Tue, 8 Oct 2024 02:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:29:06.755492
- Title: SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection
- Title(参考訳): SIA-OVD:Open-Vocabulary Detectionにおける画像参照ギャップブリッジ用形状不変アダプタ
- Authors: Zishuo Wang, Wenhao Zhou, Jinglin Xu, Yuxin Peng,
- Abstract要約: Open-vocabulary Detection (OVD) は、オープンワールドオブジェクト検出を低コストで達成するために、インスタンスレベルのアノテーションなしで新しいオブジェクトを検出することを目的としている。
既存のOVDメソッドはCLIPの強力なオープン語彙画像テキストアライメント機能に依存している。
我々は,SIA-OVD と呼ばれる新しい形状不変アダプタを提案し,OVD タスクにおける画像領域のギャップを埋める。
- 参考スコア(独自算出の注目度): 32.83065922106577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary detection (OVD) aims to detect novel objects without instance-level annotations to achieve open-world object detection at a lower cost. Existing OVD methods mainly rely on the powerful open-vocabulary image-text alignment capability of Vision-Language Pretrained Models (VLM) such as CLIP. However, CLIP is trained on image-text pairs and lacks the perceptual ability for local regions within an image, resulting in the gap between image and region representations. Directly using CLIP for OVD causes inaccurate region classification. We find the image-region gap is primarily caused by the deformation of region feature maps during region of interest (RoI) extraction. To mitigate the inaccurate region classification in OVD, we propose a new Shape-Invariant Adapter named SIA-OVD to bridge the image-region gap in the OVD task. SIA-OVD learns a set of feature adapters for regions with different shapes and designs a new adapter allocation mechanism to select the optimal adapter for each region. The adapted region representations can align better with text representations learned by CLIP. Extensive experiments demonstrate that SIA-OVD effectively improves the classification accuracy for regions by addressing the gap between images and regions caused by shape deformation. SIA-OVD achieves substantial improvements over representative methods on the COCO-OVD benchmark. The code is available at https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024.
- Abstract(参考訳): Open-vocabulary Detection (OVD) は、オープンワールドオブジェクト検出を低コストで達成するために、インスタンスレベルのアノテーションなしで新しいオブジェクトを検出することを目的としている。
既存のOVD法は主にCLIPのようなビジョン言語事前訓練モデル(VLM)の強力なオープン語彙画像テキストアライメント機能に依存している。
しかし、CLIPは画像とテキストのペアで訓練されており、画像内の局所領域の知覚能力に欠けており、画像と領域表現のギャップが生じる。
OVDにCLIPを直接使用すると、不正確な領域分類が生じる。
画像領域のギャップは主に、関心領域抽出(RoI)中の領域特徴写像の変形によって生じる。
OVDにおける不正確な領域分類を緩和するため,SIA-OVDと呼ばれる新しい形状不変アダプタを提案し,OVDタスクにおける画像領域ギャップを埋める。
SIA-OVDは、異なる形状の領域に対する一連の機能アダプタを学習し、各領域に対して最適なアダプタを選択するための新しいアダプタ割り当て機構を設計する。
適応されたリージョン表現は、CLIPによって学習されたテキスト表現とよく一致させることができる。
SIA-OVDは画像と形状変形による領域間のギャップに対処することにより,領域の分類精度を効果的に向上することを示した。
SIA-OVDはCOCO-OVDベンチマークにおける代表法よりも大幅に改善されている。
コードはhttps://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024で公開されている。
関連論文リスト
- RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting
and Anchor Pre-Matching [36.31910430275781]
領域プロンプトとアンカー事前マッチングによる開語彙検出にCLIPを適用したフレームワークを提案する。
CORAはCOCO OVDベンチマークで41.7 AP50、LVIS OVDベンチマークで28.1 APrを達成した。
論文 参考訳(メタデータ) (2023-03-23T07:13:57Z) - VLAD-VSA: Cross-Domain Face Presentation Attack Detection with
Vocabulary Separation and Adaptation [87.9994254822078]
顔提示攻撃(PAD)の場合、スプーフィングキューのほとんどは微妙で局所的な画像パターンである。
VLADアグリゲーション法は,特徴空間を局所的に分割する視覚語彙を用いて局所特徴を定量化する。
提案する語彙分離法は,語彙をドメイン共有語とドメイン固有語に分割する。
論文 参考訳(メタデータ) (2022-02-21T15:27:41Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。