論文の概要: Cross-View Open-Vocabulary Object Detection in Aerial Imagery
- arxiv url: http://arxiv.org/abs/2510.03858v1
- Date: Sat, 04 Oct 2025 16:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.302009
- Title: Cross-View Open-Vocabulary Object Detection in Aerial Imagery
- Title(参考訳): 空中画像におけるクロスビューオープン語彙物体検出
- Authors: Jyoti Kini, Rohit Gupta, Mubarak Shah,
- Abstract要約: 本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。
コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。
我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
- 参考スコア(独自算出の注目度): 48.851422992413184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional object detection models are typically trained on a fixed set of classes, limiting their flexibility and making it costly to incorporate new categories. Open-vocabulary object detection addresses this limitation by enabling models to identify unseen classes without explicit training. Leveraging pretrained models contrastively trained on abundantly available ground-view image-text classification pairs provides a strong foundation for open-vocabulary object detection in aerial imagery. Domain shifts, viewpoint variations, and extreme scale differences make direct knowledge transfer across domains ineffective, requiring specialized adaptation strategies. In this paper, we propose a novel framework for adapting open-vocabulary representations from ground-view images to solve object detection in aerial imagery through structured domain alignment. The method introduces contrastive image-to-image alignment to enhance the similarity between aerial and ground-view embeddings and employs multi-instance vocabulary associations to align aerial images with text embeddings. Extensive experiments on the xView, DOTAv2, VisDrone, DIOR, and HRRSD datasets are used to validate our approach. Our open-vocabulary model achieves improvements of +6.32 mAP on DOTAv2, +4.16 mAP on VisDrone (Images), and +3.46 mAP on HRRSD in the zero-shot setting when compared to finetuned closed-vocabulary dataset-specific model performance, thus paving the way for more flexible and scalable object detection systems in aerial applications.
- Abstract(参考訳): 従来のオブジェクト検出モデルは、通常、固定されたクラスのセットでトレーニングされ、柔軟性を制限し、新しいカテゴリを組み込むのにコストがかかる。
Open-vocabularyオブジェクト検出はこの制限に対処し、モデルが明示的なトレーニングなしで見えないクラスを識別できるようにする。
十分に利用可能な地上画像とテキストの分類ペアで訓練された事前学習モデルの活用は、空中画像におけるオープン語彙オブジェクト検出の強力な基盤となる。
ドメインシフト、視点の変化、極端なスケールの違いは、ドメイン間の直接的な知識伝達を非効率にし、特別な適応戦略を必要とする。
本稿では,地上画像からオープン語彙表現を適応させ,構造化領域アライメントによる空中画像の物体検出を実現するための新しい枠組みを提案する。
コントラスト画像と画像のアライメントを導入して、空中と地上の埋め込みの類似性を高めるとともに、複数インスタンスの語彙アライメントを用いて、空中画像とテキスト埋め込みをアライメントする。
xView、DOTAv2、VisDrone、DIOR、HRRSDデータセットに関する大規模な実験は、我々のアプローチを検証するために使用される。
我々のオープン語彙モデルは, DOTAv2上の+6.32 mAP, VisDrone上の+4.16 mAP, 微調整されたクローズドボキャブラリーデータセット固有のモデル性能と比較して, ゼロショット設定時の+3.46 mAPの改善を実現し, 航空アプリケーションにおけるより柔軟でスケーラブルなオブジェクト検出システムを実現する。
関連論文リスト
- Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。