論文の概要: VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection
- arxiv url: http://arxiv.org/abs/2511.18075v1
- Date: Sat, 22 Nov 2025 14:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.612799
- Title: VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection
- Title(参考訳): VK-Det:オープン・ボキャブラリ・エアリアル・オブジェクト検出のための視覚的知識指導型プロトタイプ学習
- Authors: Jianhang Yao, Yongbin Zheng, Siqi Lu, Wanying Xu, Peng Sun,
- Abstract要約: テキスト誘導型オープン語彙オブジェクト $textbfDet$ection フレームワークを提案する。
我々は,視覚エンコーダ固有の情報領域の認識を発見・活用し,微細な局所化と適応蒸留を実現する。
実験は最先端のパフォーマンスを示し、DIORでは30.1$mathrmmAPN$、DOTAでは23.3$mathrmmAPN$を達成し、さらに監督された方法よりも優れていた。
- 参考スコア(独自算出の注目度): 6.72903082348742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To identify objects beyond predefined categories, open-vocabulary aerial object detection (OVAD) leverages the zero-shot capabilities of visual-language models (VLMs) to generalize from base to novel categories. Existing approaches typically utilize self-learning mechanisms with weak text supervision to generate region-level pseudo-labels to align detectors with VLMs semantic spaces. However, text dependence induces semantic bias, restricting open-vocabulary expansion to text-specified concepts. We propose $\textbf{VK-Det}$, a $\textbf{V}$isual $\textbf{K}$nowledge-guided open-vocabulary object $\textbf{Det}$ection framework $\textit{without}$ extra supervision. First, we discover and leverage vision encoder's inherent informative region perception to attain fine-grained localization and adaptive distillation. Second, we introduce a novel prototype-aware pseudo-labeling strategy. It models inter-class decision boundaries through feature clustering and maps detection regions to latent categories via prototype matching. This enhances attention to novel objects while compensating for missing supervision. Extensive experiments show state-of-the-art performance, achieving 30.1 $\mathrm{mAP}^{N}$ on DIOR and 23.3 $\mathrm{mAP}^{N}$ on DOTA, outperforming even extra supervised methods.
- Abstract(参考訳): 事前定義されたカテゴリを超えてオブジェクトを識別するために、オープンボキャブラリ空中物体検出(OVAD)は、視覚言語モデル(VLM)のゼロショット機能を活用して、ベースから新しいカテゴリへと一般化する。
既存のアプローチでは、弱いテキスト管理を備えた自己学習機構を使用して、領域レベルの擬似ラベルを生成し、検出器をVLMの意味空間と整列させるのが一般的である。
しかし、テキスト依存は意味バイアスを引き起こし、オープン語彙の拡張をテキスト特定概念に制限する。
我々は、$\textbf{VK-Det}$, a $\textbf{V}$isual $\textbf{K}$nowledge-guided open-vocabulary object $\textbf{Det}$ection framework $\textit{without}$ extra supervisionを提案する。
まず、視覚エンコーダ固有の情報領域の認識を発見・活用し、微粒な局所化と適応蒸留を実現する。
第2に,プロトタイプを意識した擬似ラベル方式を導入する。
特徴クラスタリングを通じてクラス間の決定境界をモデル化し、プロトタイプマッチングを通じて潜在カテゴリにマップする。
これにより、監視の欠如を補いながら、新しいオブジェクトへの注意が高まる。
大規模な実験では、DIORでは30.1$\mathrm{mAP}^{N}$、DOTAでは23.3$\mathrm{mAP}^{N}$を達成し、さらに監督された方法よりも優れていた。
関連論文リスト
- ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z) - OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision [22.493305132568477]
オープンボキャブラリ検出は、検出器が訓練された基本カテゴリを超えて、新しいカテゴリからオブジェクトを検出することを目的としている。
我々はtextbfQuery トレーニングとオープンワールド textbfObjects の監督を行う textbf Open-textbfVocabulary DETR である OV-DQUO を提案する。
論文 参考訳(メタデータ) (2024-05-28T07:33:27Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。