Fugu-MT 論文翻訳(概要): AV-DTEC: Self-Supervised Audio-Visual Fusion for Drone Trajectory Estimation and Classification

論文の概要: AV-DTEC: Self-Supervised Audio-Visual Fusion for Drone Trajectory Estimation and Classification

arxiv url: http://arxiv.org/abs/2412.16928v1
Date: Sun, 22 Dec 2024 08:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.178336
Title: AV-DTEC: Self-Supervised Audio-Visual Fusion for Drone Trajectory Estimation and Classification
Title（参考訳）: AV-DTEC:ドローン軌道推定と分類のための自己監督型オーディオ・ビジュアル・フュージョン
Authors: Zhenyuan Xiao, Yizhuo Yang, Guili Xu, Xianglong Zeng, Shenghai Yuan,
Abstract要約: AV-DTEC (英語: AV-DTEC) は、オーディオ・ヴィジュアル・フュージョンベースの対UAVシステムである。 LiDARによって生成されたラベルを使って、自己教師付き学習を用いて訓練される。並列選択状態空間モデルにより、オーディオと視覚の特徴を同時に学習する。
参考スコア（独自算出の注目度）: 7.581356239681696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing use of compact UAVs has created significant threats to public safety, while traditional drone detection systems are often bulky and costly. To address these challenges, we propose AV-DTEC, a lightweight self-supervised audio-visual fusion-based anti-UAV system. AV-DTEC is trained using self-supervised learning with labels generated by LiDAR, and it simultaneously learns audio and visual features through a parallel selective state-space model. With the learned features, a specially designed plug-and-play primary-auxiliary feature enhancement module integrates visual features into audio features for better robustness in cross-lighting conditions. To reduce reliance on auxiliary features and align modalities, we propose a teacher-student model that adaptively adjusts the weighting of visual features. AV-DTEC demonstrates exceptional accuracy and effectiveness in real-world multi-modality data. The code and trained models are publicly accessible on GitHub \url{https://github.com/AmazingDay1/AV-DETC}.
Abstract（参考訳）: 小型無人機の使用の増加は公共の安全に重大な脅威をもたらしている一方、従来のドローン検出システムは、しばしばばらばらでコストがかかる。これらの課題に対処するため、我々は軽量な自己教師型オーディオ-視覚融合型アンチUAVシステムであるAV-DTECを提案する。 AV-DTECは、LiDARが生成したラベルを用いて自己教師付き学習を使用して訓練され、並列選択状態空間モデルによりオーディオと視覚の特徴を同時に学習する。学習した機能により、特別なデザインのプラグアンドプレイ・プライマリ・オセシリア機能拡張モジュールは、視覚機能をオーディオ機能に統合し、クロスライト環境での堅牢性を向上する。視覚的特徴の重み付けを適応的に調整する教師学生モデルを提案する。 AV-DTECは実世界のマルチモダリティデータにおいて例外的な精度と有効性を示す。コードとトレーニングされたモデルはGitHub \url{https://github.com/AmazingDay1/AV-DETC}で公開されている。

関連論文リスト

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking [11.146155422858824]
Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。 UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
論文参考訳（メタデータ） (2025-04-12T14:06:50Z)
UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-03T15:11:14Z)
Learning Adaptive and View-Invariant Vision Transformer with Multi-Teacher Knowledge Distillation for Real-Time UAV Tracking [15.597151507814429]
AVTrackは,リアルタイムなUAV追跡のための変圧器ブロックを選択的に活性化するアダプティブフレームワークである。視角の極端な変化に伴う課題に対処するために,相互情報(MI)を用いたビュー不変表現を提案する。 AVTrack-MDと呼ばれる新しいMIベースの多教師知識蒸留(MD)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-28T03:57:44Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
XAI-based Feature Ensemble for Enhanced Anomaly Detection in Autonomous Driving Systems [1.3022753212679383]
本稿では,複数の Explainable AI (XAI) メソッドを統合する新しい機能アンサンブルフレームワークを提案する。このフレームワークは、6つの多様なAIモデルにまたがって、これらのXAIメソッドによって識別されるトップ機能を融合することによって、異常の検出に不可欠な堅牢で包括的な機能のセットを生成する。我々の技術は、AIモデルの精度、堅牢性、透明性の向上を示し、より安全で信頼性の高い自動運転システムに貢献します。
論文参考訳（メタデータ） (2024-10-20T14:34:48Z)
UAVDB: Trajectory-Guided Adaptable Bounding Boxes for UAV Detection [0.03464344220266879]
本稿では,Patch Intensity Convergence (PIC) を用いた高分解能UAV検出データセットであるUAVDBを紹介する。 IoU(Intersection over Union)の性能と実行時間を比較することにより,まずPIC生成バウンディングボックスの精度と効率を検証した。次に、最先端(SOTA)YOLO系列検出器を用いてUAVDBをベンチマークし、UAVDBを長距離高分解能UAV検出のための貴重なリソースとして確立する。
論文参考訳（メタデータ） (2024-09-09T13:27:53Z)
Stackelberg Driver Model for Continual Policy Improvement in Scenario-Based Closed-Loop Autonomous Driving [5.765939495779461]
安全クリティカルなシナリオを合成するための効率的な手法のクラスとして、敵生成法が登場した。 Stackelberg Driver Model (SDM) を調整し、車両相互作用の階層的な性質を正確に特徴づける。提案アルゴリズムは,特に高次元シナリオにおいて,いくつかのベースラインと比較して優れた性能を示す。
論文参考訳（メタデータ） (2023-09-25T15:47:07Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
Learning to Compress Unmanned Aerial Vehicle (UAV) Captured Video: Benchmark and Analysis [54.07535860237662]
本稿では,UAVビデオ符号化学習のための新しいタスクを提案し,そのようなタスクに対する包括的で体系的なベンチマークを構築する。このベンチマークは、ドローンプラットフォームにおけるビデオコーディングの研究と開発を加速させるものと期待されている。
論文参考訳（メタデータ） (2023-01-15T15:18:02Z)
Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文参考訳（メタデータ） (2022-10-03T08:10:12Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。