論文の概要: Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2509.06011v1
- Date: Sun, 07 Sep 2025 10:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.81579
- Title: Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection
- Title(参考訳): UAVを用いたオープンボキャブラリ物体検出のためのクロスモーダルエンハンスメントとベンチマーク
- Authors: Zhenhai Weng, Zhongliang Yu,
- Abstract要約: 無人航空機(UAV)を応用するための重要な技術として、OVD(Open-Vocabulary Object Detection)が登場している。
OVD事前訓練のための大規模なデータセットは、主に地上レベルの自然画像で構成されている。
これにより、大きなドメインギャップが発生し、トレーニングされたモデルがUAV画像のパフォーマンスを著しく低下させる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Detection (OVD) has emerged as a pivotal technology for applications involving Unmanned Aerial Vehicles (UAVs). However, the prevailing large-scale datasets for OVD pre-training are predominantly composed of ground-level, natural images. This creates a significant domain gap, causing models trained on them to exhibit a substantial drop in performance on UAV imagery. To address this limitation, we first propose a refined UAV-Label engine. Then we construct and introduce UAVDE-2M(contains over 2,000,000 instances and 1800 categories) and UAVCAP-15k(contains over 15,000 images). Furthermore, we propose a novel Cross-Attention Gated Enhancement Fusion (CAGE) module and integrate it into the YOLO-World-v2 architecture. Finally, extensive experiments on the VisDrone and SIMD datasets verify the effectiveness of our proposed method for applications in UAV-based imagery and remote sensing.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVD)は、無人航空機(UAV)を含むアプリケーションのための重要な技術として登場した。
しかし、OVD事前訓練のための大規模なデータセットは、主に地上レベルの自然画像で構成されている。
これにより、大きなドメインギャップが発生し、トレーニングされたモデルがUAV画像のパフォーマンスを著しく低下させる。
この制限に対処するため、我々はまず改良されたUAV-Labelエンジンを提案する。
次に,UAVDE-2M(2000,000のインスタンスと1800のカテゴリを含む)とUAVCAP-15k(15,000以上のイメージを含む)を構築し,導入する。
さらに,CAGE(Cross-Attention Gated Enhancement Fusion)モジュールを提案し,YOLO-World-v2アーキテクチャに統合する。
最後に、VisDroneおよびSIMDデータセットに関する広範な実験により、UAV画像およびリモートセンシングにおける提案手法の有効性が検証された。
関連論文リスト
- DRL-Enabled Trajectory Planing for UAV-Assisted VLC: Optimal Altitude and Reward Design [35.154994099093244]
航空車両(UAV)と可視光通信(VLC)技術の統合は、効率的な照明を提供するための有望なソリューションとして現れている。
本稿では,UAV支援VLCシステムにおける3次元軌道計画について検討する。
論文 参考訳(メタデータ) (2026-01-30T03:44:14Z) - How Far are Modern Trackers from UAV-Anti-UAV? A Million-Scale Benchmark and New Baseline [74.4054700050366]
無人航空機(UAV)は広範囲のアプリケーションを提供するが、安全性とプライバシー侵害のリスクも大きい。
現在の反UAV研究は、主に固定地上カメラで撮影したRGB、赤外線(IR)、またはRGB-IRビデオに焦点を当てている。
本稿では,UAV-Anti-UAVと呼ばれるマルチモーダル視覚追跡タスクを提案する。
論文 参考訳(メタデータ) (2025-12-08T10:19:54Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Evidential Detection and Tracking Collaboration: New Problem, Benchmark
and Algorithm for Robust Anti-UAV System [56.51247807483176]
無人航空機(UAV)は輸送、監視、軍事など多くの地域で広く使われている。
従来は、UAVの先行情報が常に提供されていた追跡問題として、このようなアンチUAVタスクを単純化していた。
本稿では,従来のUAV情報を含まない複雑な場面において,UAVの認識を特徴とする新しい実用的対UAV問題を初めて定式化する。
論文 参考訳(メタデータ) (2023-06-27T19:30:23Z) - Integrated Sensing, Computation, and Communication for UAV-assisted
Federated Edge Learning [52.7230652428711]
フェデレーションエッジ学習(FEEL)は、エッジデバイスとサーバ間の定期的な通信を通じて、プライバシ保護モデルトレーニングを可能にする。
無人航空機(UAV)搭載エッジデバイスは、効率的なデータ収集における柔軟性と移動性のため、FEELにとって特に有利である。
論文 参考訳(メタデータ) (2023-06-05T16:01:33Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。