論文の概要: A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data
- arxiv url: http://arxiv.org/abs/2511.15312v1
- Date: Wed, 19 Nov 2025 10:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.75509
- Title: A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data
- Title(参考訳): レーダ・オーディオ・ビデオデータを用いたUAV検出・空中物体認識のためのマルチモーダルトランスフォーマ手法
- Authors: Mauro Larrat, Claudomiro Sales,
- Abstract要約: 無人航空機(UAV)の検出と航空機の物体認識は、現代の監視とセキュリティにとって重要である。
本研究は、新しいマルチモーダルトランスフォーマーモデルの設計と厳密な評価により、これらの課題に対処する。
レーダー、ビジュアルバンドビデオ(RGB)、赤外線(IR)ビデオ、オーディオといった多様なデータストリームを統合している。
- 参考スコア(独自算出の注目度): 0.3093890460224435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicle (UAV) detection and aerial object recognition are critical for modern surveillance and security, prompting a need for robust systems that overcome limitations of single-modality approaches. This research addresses these challenges by designing and rigorously evaluating a novel multimodal Transformer model that integrates diverse data streams: radar, visual band video (RGB), infrared (IR) video, and audio. The architecture effectively fuses distinct features from each modality, leveraging the Transformer's self-attention mechanisms to learn comprehensive, complementary, and highly discriminative representations for classification. The model demonstrated exceptional performance on an independent test set, achieving macro-averaged metrics of 0.9812 accuracy, 0.9873 recall, 0.9787 precision, 0.9826 F1-score, and 0.9954 specificity. Notably, it exhibited particularly high precision and recall in distinguishing drones from other aerial objects. Furthermore, computational analysis confirmed its efficiency, with 1.09 GFLOPs, 1.22 million parameters, and an inference speed of 41.11 FPS, highlighting its suitability for real-time applications. This study presents a significant advancement in aerial object classification, validating the efficacy of multimodal data fusion via a Transformer architecture for achieving state-of-the-art performance, thereby offering a highly accurate and resilient solution for UAV detection and monitoring in complex airspace.
- Abstract(参考訳): 無人航空機(UAV)の検出と空中物体認識は、近代的な監視とセキュリティにとって重要であり、単一のモダリティアプローチの限界を克服する堅牢なシステムの必要性を喚起する。
本研究では、レーダ、ビジュアルバンドビデオ(RGB)、赤外線(IR)ビデオ、オーディオといった多様なデータストリームを統合した、新しいマルチモーダルトランスフォーマーモデルを設計し、厳格に評価することで、これらの課題に対処する。
このアーキテクチャは、トランスフォーマーの自己認識機構を利用して、分類のための包括的で補完的で非常に差別的な表現を学ぶことによって、各モダリティとは異なる特徴を効果的に融合させる。
このモデルは独立したテストセットで例外的な性能を示し、マクロ平均値0.9812の精度、0.9873のリコール、0.9787の精度、0.9826のF1スコア、0.9954の特異性を達成した。
特に、他の空中物体とドローンを区別する際、特に高精度でリコールされた。
さらに、計算分析により、効率が1.09 GFLOPs、パラメータが1.22万、推論速度が41.11 FPSであることが確認された。
本研究は, 空中物体分類の大幅な進歩を示し, トランスフォーマーアーキテクチャによる多モードデータ融合の有効性を検証し, 複雑な空域におけるUAV検出・監視のための高精度でレジリエントなソリューションを提供する。
関連論文リスト
- UAV Individual Identification via Distilled RF Fingerprints-Based LLM in ISAC Networks [60.16924915676577]
無人航空機(UAV)個人識別は、低高度統合センシング通信(ISAC)ネットワークにおける重要なセキュリティ監視戦略である。
UAVID識別のための新しい動的知識蒸留(KD)対応無線周波数指紋大言語モデル(RFF-LLM)を提案する。
実験結果から,提案フレームワークは,0.15万のパラメータと2.74ミリ秒の応答時間で,98.38%のID識別精度を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-18T03:14:44Z) - SpectraSentinel: LightWeight Dual-Stream Real-Time Drone Detection, Tracking and Payload Identification [0.0903415485511869]
民間空域でのドローンの拡散は、緊急のセキュリティ上の懸念を引き起こしている。
2025年のVIPカップの課題に対応するため、我々は2ストリームのドローン監視フレームワークを提案する。
我々のアプローチでは、並列赤外(熱)および可視(RGB)データストリーム上に、独立してYou Only Look Once v11-nano (YOLOv11n)オブジェクト検出器をデプロイする。
論文 参考訳(メタデータ) (2025-07-30T13:10:13Z) - A Transformer-Based Conditional GAN with Multiple Instance Learning for UAV Signal Detection and Classification [17.586093539522327]
本稿では,トランスフォーマーをベースとしたGAN(Generative Adversarial Network)とMILET(Multiple Examplely Explainable Learning)を統合した新しいフレームワークを提案する。
実験の結果,DroneDetectデータセットでは96.5%,DroneRFデータセットでは98.6%の精度が得られた。
このフレームワークはまた、様々なUAVプラットフォームと飛行状態にまたがる強力な計算効率と堅牢な一般化を示す。
論文 参考訳(メタデータ) (2025-07-19T12:35:45Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Resource-Efficient Beam Prediction in mmWave Communications with Multimodal Realistic Simulation Framework [57.994965436344195]
ビームフォーミングは、方向と強度を最適化して信号伝送を改善するミリ波通信において重要な技術である。
マルチモーダルセンシング支援ビーム予測は,ユーザ位置やネットワーク条件を予測するために,さまざまなセンサデータを使用して注目されている。
その有望な可能性にもかかわらず、マルチモーダルセンシング支援ビーム予測の採用は、高い計算複雑性、高いコスト、限られたデータセットによって妨げられている。
論文 参考訳(メタデータ) (2025-04-07T15:38:25Z) - A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping [3.321306647655686]
グローバル測位システム(GPS)、慣性計測ユニット(IMU)、4Dミリ波レーダとカメラを統合したマルチセンサUAVシステムにより、この問題に対する効果的な解決策を提供することができる。
予め最適化された特徴マッチング手法を導入し、マッチング速度と精度を向上させる。
実験の結果,提案手法は短時間で正確な特徴マッチングを実現できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T05:55:30Z) - Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文 参考訳(メタデータ) (2025-02-11T09:54:09Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。