論文の概要: Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2509.06011v2
- Date: Tue, 09 Sep 2025 12:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.831428
- Title: Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection
- Title(参考訳): UAVを用いたオープン語彙オブジェクト検出のためのベンチマーク構築による軽量クロスモーダル化手法
- Authors: Zhenhai Weng, Xinjie Li, Can Wu, Weijie He, Jianfeng Lv, Dong Zhou, Zhongliang Yu,
- Abstract要約: 我々は,データセット構築とモデル革新を組み合わせた完全なUAV指向ソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決する改良されたUAV-Labelエンジンを設計する。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
- 参考スコア(独自算出の注目度): 6.443926939309045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Detection (OVD) faces severe performance degradation when applied to UAV imagery due to the domain gap from ground-level datasets. To address this challenge, we propose a complete UAV-oriented solution that combines both dataset construction and model innovation. First, we design a refined UAV-Label Engine, which efficiently resolves annotation redundancy, inconsistency, and ambiguity, enabling the generation of largescale UAV datasets. Based on this engine, we construct two new benchmarks: UAVDE-2M, with over 2.4M instances across 1,800+ categories, and UAVCAP-15K, providing rich image-text pairs for vision-language pretraining. Second, we introduce the Cross-Attention Gated Enhancement (CAGE) module, a lightweight dual-path fusion design that integrates cross-attention, adaptive gating, and global FiLM modulation for robust textvision alignment. By embedding CAGE into the YOLO-World-v2 framework, our method achieves significant gains in both accuracy and efficiency, notably improving zero-shot detection on VisDrone by +5.3 mAP while reducing parameters and GFLOPs, and demonstrating strong cross-domain generalization on SIMD. Extensive experiments and real-world UAV deployment confirm the effectiveness and practicality of our proposed solution for UAV-based OVD
- Abstract(参考訳): Open-Vocabulary Object Detection (OVD)は、地上レベルのデータセットからのドメインギャップによってUAV画像に適用された場合、大幅なパフォーマンス低下に直面している。
この課題に対処するため、データセット構築とモデル革新を組み合わせた完全なUAV指向のソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決し, 大規模UAVデータセットの生成を可能にする改良されたUAV-Labelエンジンを設計する。
このエンジンに基づいて,1,800以上のカテゴリに2.4万以上のインスタンスを持つUAVDE-2Mと,視覚言語による事前学習のためのリッチな画像テキストペアを提供するUAVCAP-15Kという2つの新しいベンチマークを構築した。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
YOLO-World-v2 フレームワークに CAGE を組み込むことで,VosDrone のゼロショット検出を+5.3 mAP で改善し,パラメータと GFLOP を削減し,SIMD 上で強力なクロスドメイン一般化を示す。
広汎な実験と実世界のUAV展開により、UAVベースのOVDのための提案されたソリューションの有効性と実用性が確認された。
関連論文リスト
- DRL-Enabled Trajectory Planing for UAV-Assisted VLC: Optimal Altitude and Reward Design [35.154994099093244]
航空車両(UAV)と可視光通信(VLC)技術の統合は、効率的な照明を提供するための有望なソリューションとして現れている。
本稿では,UAV支援VLCシステムにおける3次元軌道計画について検討する。
論文 参考訳(メタデータ) (2026-01-30T03:44:14Z) - How Far are Modern Trackers from UAV-Anti-UAV? A Million-Scale Benchmark and New Baseline [74.4054700050366]
無人航空機(UAV)は広範囲のアプリケーションを提供するが、安全性とプライバシー侵害のリスクも大きい。
現在の反UAV研究は、主に固定地上カメラで撮影したRGB、赤外線(IR)、またはRGB-IRビデオに焦点を当てている。
本稿では,UAV-Anti-UAVと呼ばれるマルチモーダル視覚追跡タスクを提案する。
論文 参考訳(メタデータ) (2025-12-08T10:19:54Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Evidential Detection and Tracking Collaboration: New Problem, Benchmark
and Algorithm for Robust Anti-UAV System [56.51247807483176]
無人航空機(UAV)は輸送、監視、軍事など多くの地域で広く使われている。
従来は、UAVの先行情報が常に提供されていた追跡問題として、このようなアンチUAVタスクを単純化していた。
本稿では,従来のUAV情報を含まない複雑な場面において,UAVの認識を特徴とする新しい実用的対UAV問題を初めて定式化する。
論文 参考訳(メタデータ) (2023-06-27T19:30:23Z) - Integrated Sensing, Computation, and Communication for UAV-assisted
Federated Edge Learning [52.7230652428711]
フェデレーションエッジ学習(FEEL)は、エッジデバイスとサーバ間の定期的な通信を通じて、プライバシ保護モデルトレーニングを可能にする。
無人航空機(UAV)搭載エッジデバイスは、効率的なデータ収集における柔軟性と移動性のため、FEELにとって特に有利である。
論文 参考訳(メタデータ) (2023-06-05T16:01:33Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。