論文の概要: Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2509.06011v1
- Date: Sun, 07 Sep 2025 10:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.81579
- Title: Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection
- Title(参考訳): UAVを用いたオープンボキャブラリ物体検出のためのクロスモーダルエンハンスメントとベンチマーク
- Authors: Zhenhai Weng, Zhongliang Yu,
- Abstract要約: 無人航空機(UAV)を応用するための重要な技術として、OVD(Open-Vocabulary Object Detection)が登場している。
OVD事前訓練のための大規模なデータセットは、主に地上レベルの自然画像で構成されている。
これにより、大きなドメインギャップが発生し、トレーニングされたモデルがUAV画像のパフォーマンスを著しく低下させる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Detection (OVD) has emerged as a pivotal technology for applications involving Unmanned Aerial Vehicles (UAVs). However, the prevailing large-scale datasets for OVD pre-training are predominantly composed of ground-level, natural images. This creates a significant domain gap, causing models trained on them to exhibit a substantial drop in performance on UAV imagery. To address this limitation, we first propose a refined UAV-Label engine. Then we construct and introduce UAVDE-2M(contains over 2,000,000 instances and 1800 categories) and UAVCAP-15k(contains over 15,000 images). Furthermore, we propose a novel Cross-Attention Gated Enhancement Fusion (CAGE) module and integrate it into the YOLO-World-v2 architecture. Finally, extensive experiments on the VisDrone and SIMD datasets verify the effectiveness of our proposed method for applications in UAV-based imagery and remote sensing.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVD)は、無人航空機(UAV)を含むアプリケーションのための重要な技術として登場した。
しかし、OVD事前訓練のための大規模なデータセットは、主に地上レベルの自然画像で構成されている。
これにより、大きなドメインギャップが発生し、トレーニングされたモデルがUAV画像のパフォーマンスを著しく低下させる。
この制限に対処するため、我々はまず改良されたUAV-Labelエンジンを提案する。
次に,UAVDE-2M(2000,000のインスタンスと1800のカテゴリを含む)とUAVCAP-15k(15,000以上のイメージを含む)を構築し,導入する。
さらに,CAGE(Cross-Attention Gated Enhancement Fusion)モジュールを提案し,YOLO-World-v2アーキテクチャに統合する。
最後に、VisDroneおよびSIMDデータセットに関する広範な実験により、UAV画像およびリモートセンシングにおける提案手法の有効性が検証された。
関連論文リスト
- More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Evidential Detection and Tracking Collaboration: New Problem, Benchmark
and Algorithm for Robust Anti-UAV System [56.51247807483176]
無人航空機(UAV)は輸送、監視、軍事など多くの地域で広く使われている。
従来は、UAVの先行情報が常に提供されていた追跡問題として、このようなアンチUAVタスクを単純化していた。
本稿では,従来のUAV情報を含まない複雑な場面において,UAVの認識を特徴とする新しい実用的対UAV問題を初めて定式化する。
論文 参考訳(メタデータ) (2023-06-27T19:30:23Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。