論文の概要: WAVE-DETR Multi-Modal Visible and Acoustic Real-Life Drone Detector
- arxiv url: http://arxiv.org/abs/2509.09859v1
- Date: Thu, 11 Sep 2025 21:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.925004
- Title: WAVE-DETR Multi-Modal Visible and Acoustic Real-Life Drone Detector
- Title(参考訳): WAVE-DETR多モード可視・音響実生活ドローン検出器
- Authors: Razvan Stefanescu, Ethan Oh, Ruben Vazquez, Chris Mesterharm, Constantin Serban, Ritu Chadha,
- Abstract要約: 本稿では、可視RGBと音響信号を組み合わせたマルチモーダルWAVE-DETRドローン検出器を導入し、実生活で堅牢なUAV物体検出を行う。
提案手法は,Deformable DETRとWav2Vec2の埋め込みを利用した統一物体検出モデルにおける視覚的・音響的特徴を融合する。
実カルドロンデータセット上でのDeformable DETRオブジェクト検出器の性能向上に音響情報がどのように利用されているかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a multi-modal WAVE-DETR drone detector combining visible RGB and acoustic signals for robust real-life UAV object detection. Our approach fuses visual and acoustic features in a unified object detector model relying on the Deformable DETR and Wav2Vec2 architectures, achieving strong performance under challenging environmental conditions. Our work leverage the existing Drone-vs-Bird dataset and the newly generated ARDrone dataset containing more than 7,500 synchronized images and audio segments. We show how the acoustic information is used to improve the performance of the Deformable DETR object detector on the real ARDrone dataset. We developed, trained and tested four different fusion configurations based on a gated mechanism, linear layer, MLP and cross attention. The Wav2Vec2 acoustic embeddings are fused with the multi resolution feature mappings of the Deformable DETR and enhance the object detection performance over all drones dimensions. The best performer is the gated fusion approach, which improves the mAP of the Deformable DETR object detector on our in-distribution and out-of-distribution ARDrone datasets by 11.1% to 15.3% for small drones across all IoU thresholds between 0.5 and 0.9. The mAP scores for medium and large drones are also enhanced, with overall gains across all drone sizes ranging from 3.27% to 5.84%.
- Abstract(参考訳): 本稿では、可視RGBと音響信号を組み合わせたマルチモーダルWAVE-DETRドローン検出器を導入し、実生活で堅牢なUAV物体検出を行う。
本稿では,Deformable DETR と Wav2Vec2 アーキテクチャをベースとした統合オブジェクト検出モデルにおける視覚的・音響的特徴を融合させ,環境条件下での強靭な性能を実現する。
我々の研究は、既存のDrone-vs-Birdデータセットと、7500以上の同期画像とオーディオセグメントを含む新たに生成されたARDroneデータセットを活用している。
実カルドロンデータセット上でのDeformable DETRオブジェクト検出器の性能向上に音響情報がどのように利用されているかを示す。
ゲート機構, 線形層, MLP, クロスアテンションに基づく4種類の核融合機構を開発し, 実験を行った。
Wav2Vec2音響埋め込みは、変形可能なDETRの多重解像度特徴マッピングと融合し、全てのドローン次元における物体検出性能を向上させる。
最も優れたパフォーマーはゲート融合(gate fusion)アプローチであり、0.5から0.9までの全てのIoUしきい値の小さなドローンに対して、我々の分布内および分布外にある変形可能なDETRオブジェクト検出器のmAPを11.1%から15.3%改善する。
中型と大型のドローンのmAPスコアも強化され、全ドローンのサイズは3.27%から5.84%に拡大した。
関連論文リスト
- UAV Individual Identification via Distilled RF Fingerprints-Based LLM in ISAC Networks [60.16924915676577]
無人航空機(UAV)個人識別は、低高度統合センシング通信(ISAC)ネットワークにおける重要なセキュリティ監視戦略である。
UAVID識別のための新しい動的知識蒸留(KD)対応無線周波数指紋大言語モデル(RFF-LLM)を提案する。
実験結果から,提案フレームワークは,0.15万のパラメータと2.74ミリ秒の応答時間で,98.38%のID識別精度を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-18T03:14:44Z) - SpectraSentinel: LightWeight Dual-Stream Real-Time Drone Detection, Tracking and Payload Identification [0.0903415485511869]
民間空域でのドローンの拡散は、緊急のセキュリティ上の懸念を引き起こしている。
2025年のVIPカップの課題に対応するため、我々は2ストリームのドローン監視フレームワークを提案する。
我々のアプローチでは、並列赤外(熱)および可視(RGB)データストリーム上に、独立してYou Only Look Once v11-nano (YOLOv11n)オブジェクト検出器をデプロイする。
論文 参考訳(メタデータ) (2025-07-30T13:10:13Z) - Improving Small Drone Detection Through Multi-Scale Processing and Data Augmentation [2.522137108227868]
本研究では,中規模のYOLOv11オブジェクト検出モデルに基づくドローン検出手法を提案する。
そこで我々は,入力画像を全体およびセグメント化された部分の両方で処理し,その後の予測アグリゲーションで処理するマルチスケールアプローチを実装した。
提案されたアプローチは、2025年のInternational Joint Conference on Neural Networksで開かれた第8回WOSDETC Drone-vsBird Detection Grand Challengeでトップ3にランクインした。
論文 参考訳(メタデータ) (2025-04-27T20:06:55Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:11:14Z) - A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Multi-Stage Fusion Architecture for Small-Drone Localization and Identification Using Passive RF and EO Imagery: A Case Study [0.1872664641238533]
本研究では、受動無線周波数(RF)と電気光学(EO)画像データを用いた多段階融合アーキテクチャを開発する。
教師なしの深層学習に基づく手法と、教師なしの地上/後方分離手法を探索し、挑戦的な環境に対処する。
提案した融合アーキテクチャを検証し,その範囲で追跡性能を定量化する。
論文 参考訳(メタデータ) (2024-03-30T22:53:28Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。