論文の概要: CastDet: Toward Open Vocabulary Aerial Object Detection with
CLIP-Activated Student-Teacher Learning
- arxiv url: http://arxiv.org/abs/2311.11646v1
- Date: Mon, 20 Nov 2023 10:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:16:23.322763
- Title: CastDet: Toward Open Vocabulary Aerial Object Detection with
CLIP-Activated Student-Teacher Learning
- Title(参考訳): CastDet: CLIP-Activated Students-Teacher Learning を用いたオープン語彙空中検出に向けて
- Authors: Yan Li, Weiwei Guo, Dunyun He, Jiaqi Zhou, Yuze Gao, Wenxian Yu
- Abstract要約: 本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案と分類を促進する。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
- 参考スコア(独自算出の注目度): 10.810711596013244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection in aerial images is a pivotal task for various earth
observation applications, whereas current algorithms learn to detect only a
pre-defined set of object categories demanding sufficient bounding-box
annotated training samples and fail to detect novel object categories. In this
paper, we consider open-vocabulary object detection (OVD) in aerial images that
enables the characterization of new objects beyond training categories on the
earth surface without annotating training images for these new categories. The
performance of OVD depends on the quality of class-agnostic region proposals
and pseudo-labels that can generalize well to novel object categories. To
simultaneously generate high-quality proposals and pseudo-labels, we propose
CastDet, a CLIP-activated student-teacher open-vocabulary object Detection
framework. Our end-to-end framework within the student-teacher mechanism
employs the CLIP model as an extra omniscient teacher of rich knowledge into
the student-teacher self-learning process. By doing so, our approach boosts
novel object proposals and classification. Furthermore, we design a dynamic
label queue technique to maintain high-quality pseudo labels during batch
training and mitigate label imbalance. We conduct extensive experiments on
multiple existing aerial object detection datasets, which are set up for the
OVD task. Experimental results demonstrate our CastDet achieving superior
open-vocabulary detection performance, e.g., reaching 40.0 HM (Harmonic Mean),
which outperforms previous methods Detic/ViLD by 26.9/21.1 on the VisDroneZSD
dataset.
- Abstract(参考訳): 航空画像における物体検出は、様々な地球観測アプリケーションにおいて重要な課題であるが、現在のアルゴリズムは、十分なバウンディングボックスアノテートトレーニングサンプルを必要とする対象カテゴリの事前定義されたセットのみを検出し、新しい対象カテゴリを検出できないことを学習している。
本稿では,地球表面のトレーニングカテゴリを超えて,これらの新しいカテゴリのトレーニングイメージに注釈を付けることなく,新しいオブジェクトのキャラクタリゼーションを可能にする空中画像のオープンボキャブラリオブジェクト検出(OVD)について考察する。
OVDの性能は、クラスに依存しない領域の提案や、新しいオブジェクトカテゴリをうまく一般化できる擬似ラベルの品質に依存する。
高品質な提案と疑似ラベルを同時に作成するために,クリップアクティベートした学生教師によるオープンボキャブラリー物体検出フレームワークであるcastdetを提案する。
学生-教師のメカニズムにおけるエンドツーエンドのフレームワークは、CLIPモデルを学生-教師の自己学習プロセスにおいて、豊富な知識の専門的な教師として活用する。
このアプローチは、新しいオブジェクトの提案と分類を促進する。
さらに,バッチトレーニング中に高品質な擬似ラベルを維持するための動的ラベルキュー手法を設計し,ラベルの不均衡を緩和する。
我々はOVDタスク用に設定された複数の既存の空中物体検出データセットについて広範な実験を行った。
実験の結果、VesDroneZSDデータセット上でDetic/ViLDを26.9/21.1で上回る40.0HM(Harmonic Mean)に達するなど、より優れたオープン語彙検出性能を実現した。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [50.16478515591924]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Identification of Novel Classes for Improving Few-Shot Object Detection [12.013345715187285]
Few-shot Object Detection (FSOD) メソッドは、クラス毎に少数のトレーニングサンプルのみを使用して、堅牢なオブジェクト検出を実現することで、改善を提供する。
我々は、FSOD性能を向上させるためのトレーニング中に、未ラベルの新規物体を正のサンプルとして検出し、利用するための半教師付きアルゴリズムを開発した。
実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。
論文 参考訳(メタデータ) (2023-03-18T14:12:52Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。