論文の概要: Open-Vocabulary Object Detection in UAV Imagery: A Review and Future Perspectives
- arxiv url: http://arxiv.org/abs/2507.13359v1
- Date: Fri, 04 Jul 2025 04:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-27 08:26:15.89466
- Title: Open-Vocabulary Object Detection in UAV Imagery: A Review and Future Perspectives
- Title(参考訳): UAV画像におけるオープンボキャブラリ物体検出 : 概観と今後の展望
- Authors: Yang Zhou, Junjie Li, CongYang Ou, Dawei Yan, Haokui Zhang, Xizhe Xue,
- Abstract要約: 近年、無人航空機(UAV)技術の進歩により、この分野は新たな高地へと押し上げられている。
従来のUAV空中物体検出方法は、主に事前に定義されたカテゴリーを検出することに焦点を当てている。
クロスモーダルテキストイメージアライメント(例えばCLIP)の出現は、この制限を克服し、オープン語彙オブジェクト検出(OVOD)を可能にした。
本稿では,UAV空域におけるOVODの包括的調査について述べる。
- 参考スコア(独自算出の注目度): 17.28550362736493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to its extensive applications, aerial image object detection has long been a hot topic in computer vision. In recent years, advancements in Unmanned Aerial Vehicles (UAV) technology have further propelled this field to new heights, giving rise to a broader range of application requirements. However, traditional UAV aerial object detection methods primarily focus on detecting predefined categories, which significantly limits their applicability. The advent of cross-modal text-image alignment (e.g., CLIP) has overcome this limitation, enabling open-vocabulary object detection (OVOD), which can identify previously unseen objects through natural language descriptions. This breakthrough significantly enhances the intelligence and autonomy of UAVs in aerial scene understanding. This paper presents a comprehensive survey of OVOD in the context of UAV aerial scenes. We begin by aligning the core principles of OVOD with the unique characteristics of UAV vision, setting the stage for a specialized discussion. Building on this foundation, we construct a systematic taxonomy that categorizes existing OVOD methods for aerial imagery and provides a comprehensive overview of the relevant datasets. This structured review enables us to critically dissect the key challenges and open problems at the intersection of these fields. Finally, based on this analysis, we outline promising future research directions and application prospects. This survey aims to provide a clear road map and a valuable reference for both newcomers and seasoned researchers, fostering innovation in this rapidly evolving domain. We keep tracing related works at https://github.com/zhouyang2002/OVOD-in-UVA-imagery
- Abstract(参考訳): 広範に応用されているため、空中画像オブジェクト検出はコンピュータビジョンにおいて長い間ホットな話題であった。
近年、無人航空機(UAV)技術の進歩により、この分野は新たな高度まで加速し、幅広い応用要件が生まれている。
しかし、従来のUAV空中物体検出手法は、主に事前に定義されたカテゴリの検出に焦点を合わせており、適用性が著しく制限されている。
クロスモーダルなテキストイメージアライメント(例えばCLIP)の出現は、この制限を克服し、未確認のオブジェクトを自然言語で識別するオープン語彙オブジェクト検出(OVOD)を可能にした。
このブレークスルーは、空域理解におけるUAVの知性と自律性を著しく向上させる。
本稿では,UAV空域におけるOVODの包括的調査について述べる。
我々は、OVODの中核となる原則とUAVビジョンのユニークな特徴を整合させ、特別な議論の舞台を整えることから始める。
この基盤を基盤として,既存の航空画像のOVOD手法を分類する系統分類を構築し,関連するデータセットの包括的概要を提供する。
この構造化されたレビューにより、重要な課題を批判的に解き、これらの分野の交差点で問題を開くことができる。
最後に、この分析に基づいて、将来的な研究の方向性と今後の展望を概説する。
この調査は、新参者と経験豊富な研究者の両方にとって明確なロードマップと貴重な参考を提供することを目的としており、この急速に発展する領域におけるイノベーションを育む。
https://github.com/zhouyang2002/OVOD-in-UVA-imagery における関連作品の追跡を続けている
関連論文リスト
- More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - Dehazing Remote Sensing and UAV Imagery: A Review of Deep Learning, Prior-based, and Hybrid Approaches [4.516330345599765]
高品質な画像は、リモートセンシングおよびUAVアプリケーションに不可欠である。
大気ヘイズは 画像の質を著しく低下させ 画像の劣化を 重要な研究領域にします
論文 参考訳(メタデータ) (2024-05-13T07:35:24Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Investigation of UAV Detection in Images with Complex Backgrounds and
Rainy Artifacts [20.20609511526255]
UAV検出のための視覚に基づく物体検出法が開発されている。
複雑な背景と雨のような気象要素を持つ画像におけるUAV検出は、まだ合理的に研究されていない。
この研究は、最先端のオブジェクト検出モデルのベンチマークにも重点を置いている。
論文 参考訳(メタデータ) (2023-05-25T19:54:33Z) - The State of Aerial Surveillance: A Survey [62.198765910573556]
本稿では、コンピュータビジョンとパターン認識の観点から、人間中心の空中監視タスクの概要を概観する。
主な対象は、単体または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。
論文 参考訳(メタデータ) (2022-01-09T20:13:27Z) - A Review on Deep Learning in UAV Remote Sensing [7.721988450630861]
本稿では,UAV画像に適用されるDeep Learning(DL)の基礎を概観する。
そのために、国際科学雑誌データベースに掲載された合計232の論文が調査された。
本稿では,有望な結果をDLが提示し,UAV画像データに関連するタスクを処理できる可能性について述べる。
論文 参考訳(メタデータ) (2021-01-22T16:08:38Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。