論文の概要: AV-DTEC: Self-Supervised Audio-Visual Fusion for Drone Trajectory Estimation and Classification
- arxiv url: http://arxiv.org/abs/2412.16928v1
- Date: Sun, 22 Dec 2024 08:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:57.340358
- Title: AV-DTEC: Self-Supervised Audio-Visual Fusion for Drone Trajectory Estimation and Classification
- Title(参考訳): AV-DTEC:ドローン軌道推定と分類のための自己監督型オーディオ・ビジュアル・フュージョン
- Authors: Zhenyuan Xiao, Yizhuo Yang, Guili Xu, Xianglong Zeng, Shenghai Yuan,
- Abstract要約: AV-DTEC (英語: AV-DTEC) は、オーディオ・ヴィジュアル・フュージョンベースの対UAVシステムである。
LiDARによって生成されたラベルを使って、自己教師付き学習を用いて訓練される。
並列選択状態空間モデルにより、オーディオと視覚の特徴を同時に学習する。
- 参考スコア(独自算出の注目度): 7.581356239681696
- License:
- Abstract: The increasing use of compact UAVs has created significant threats to public safety, while traditional drone detection systems are often bulky and costly. To address these challenges, we propose AV-DTEC, a lightweight self-supervised audio-visual fusion-based anti-UAV system. AV-DTEC is trained using self-supervised learning with labels generated by LiDAR, and it simultaneously learns audio and visual features through a parallel selective state-space model. With the learned features, a specially designed plug-and-play primary-auxiliary feature enhancement module integrates visual features into audio features for better robustness in cross-lighting conditions. To reduce reliance on auxiliary features and align modalities, we propose a teacher-student model that adaptively adjusts the weighting of visual features. AV-DTEC demonstrates exceptional accuracy and effectiveness in real-world multi-modality data. The code and trained models are publicly accessible on GitHub \url{https://github.com/AmazingDay1/AV-DETC}.
- Abstract(参考訳): 小型無人機の使用の増加は公共の安全に重大な脅威をもたらしている一方、従来のドローン検出システムは、しばしばばらばらでコストがかかる。
これらの課題に対処するため、我々は軽量な自己教師型オーディオ-視覚融合型アンチUAVシステムであるAV-DTECを提案する。
AV-DTECは、LiDARが生成したラベルを用いて自己教師付き学習を使用して訓練され、並列選択状態空間モデルによりオーディオと視覚の特徴を同時に学習する。
学習した機能により、特別なデザインのプラグアンドプレイ・プライマリ・オセシリア機能拡張モジュールは、視覚機能をオーディオ機能に統合し、クロスライト環境での堅牢性を向上する。
視覚的特徴の重み付けを適応的に調整する教師学生モデルを提案する。
AV-DTECは実世界のマルチモダリティデータにおいて例外的な精度と有効性を示す。
コードとトレーニングされたモデルはGitHub \url{https://github.com/AmazingDay1/AV-DETC}で公開されている。
関連論文リスト
- XAI-based Feature Ensemble for Enhanced Anomaly Detection in Autonomous Driving Systems [1.3022753212679383]
本稿では,複数の Explainable AI (XAI) メソッドを統合する新しい機能アンサンブルフレームワークを提案する。
このフレームワークは、6つの多様なAIモデルにまたがって、これらのXAIメソッドによって識別されるトップ機能を融合することによって、異常の検出に不可欠な堅牢で包括的な機能のセットを生成する。
我々の技術は、AIモデルの精度、堅牢性、透明性の向上を示し、より安全で信頼性の高い自動運転システムに貢献します。
論文 参考訳(メタデータ) (2024-10-20T14:34:48Z) - UAVDB: Trajectory-Guided Adaptable Bounding Boxes for UAV Detection [0.03464344220266879]
パッチ強度収束(Patch Intensity Convergence、PIC)技術は、手動ラベリングなしでUAV検出のための高忠実なバウンディングボックスを生成する。
この技術は、UAV検出に特化した専用データベースであるUAVDBの基礎となる。
我々は,最先端(SOTA)YOLO系列検出器を用いてUAVDBをベンチマークし,総合的な性能解析を行った。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - Enhancing Privacy and Security of Autonomous UAV Navigation [0.8512184778338805]
国境警備や災害対応といった重要なシナリオでは、自律型無人機の安全な航行が最重要である。
本稿では,RL(Reinforcement Learning)とFHE(Fully Homomorphic Encryption)を組み合わせて,自律型UAVナビゲーションを実現する革新的な手法を提案する。
提案手法により,自律型UAVナビゲーションにおけるセキュリティとプライバシが保証され,性能が損なわれない。
論文 参考訳(メタデータ) (2024-04-26T07:54:04Z) - Stackelberg Driver Model for Continual Policy Improvement in
Scenario-Based Closed-Loop Autonomous Driving [5.765939495779461]
安全クリティカルなシナリオを合成するための効率的な手法のクラスとして、敵生成法が登場した。
Stackelberg Driver Model (SDM) を調整し、車両相互作用の階層的な性質を正確に特徴づける。
提案アルゴリズムは,特に高次元シナリオにおいて,いくつかのベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-25T15:47:07Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Learning to Compress Unmanned Aerial Vehicle (UAV) Captured Video:
Benchmark and Analysis [54.07535860237662]
本稿では,UAVビデオ符号化学習のための新しいタスクを提案し,そのようなタスクに対する包括的で体系的なベンチマークを構築する。
このベンチマークは、ドローンプラットフォームにおけるビデオコーディングの研究と開発を加速させるものと期待されている。
論文 参考訳(メタデータ) (2023-01-15T15:18:02Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking [59.06167734555191]
Unmanned Aerial Vehicle (UAV)は、商業とレクリエーションの両方に多くの応用を提供している。
我々は、UAVを追跡し、位置や軌道などの豊富な情報を提供するという課題を考察する。
300以上のビデオペアが580k以上の手動で注釈付きバウンディングボックスを含むデータセット、Anti-UAVを提案します。
論文 参考訳(メタデータ) (2021-01-21T07:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。