論文の概要: 4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification
- arxiv url: http://arxiv.org/abs/2505.23782v1
- Date: Wed, 21 May 2025 22:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.584183
- Title: 4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification
- Title(参考訳): 4500秒: 深度UAVオーディオ分類のための小さなデータトレーニングアプローチ
- Authors: Andrew P. Berg, Qian Zhang, Mia Y. Wang,
- Abstract要約: 本研究では,UAV分類における深層学習のアプローチについて,データ不足の重要な問題に着目して検討する。
合計4,500秒のオーディオサンプルを使用してモデルをトレーニングし、9クラスのデータセットに均等に分散する。
我々は、畳み込みニューラルネットワーク(CNN)とアテンションベースのトランスフォーマーの使用を比較した。
- 参考スコア(独自算出の注目度): 2.3354223046061016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unmanned aerial vehicle (UAV) usage is expected to surge in the coming decade, raising the need for heightened security measures to prevent airspace violations and security threats. This study investigates deep learning approaches to UAV classification focusing on the key issue of data scarcity. To investigate this we opted to train the models using a total of 4,500 seconds of audio samples, evenly distributed across a 9-class dataset. We leveraged parameter efficient fine-tuning (PEFT) and data augmentations to mitigate the data scarcity. This paper implements and compares the use of convolutional neural networks (CNNs) and attention-based transformers. Our results show that, CNNs outperform transformers by 1-2\% accuracy, while still being more computationally efficient. These early findings, however, point to potential in using transformers models; suggesting that with more data and further optimizations they could outperform CNNs. Future works aims to upscale the dataset to better understand the trade-offs between these approaches.
- Abstract(参考訳): 無人航空機(UAV)の使用は今後10年間で急増すると予想され、空域の違反やセキュリティ上の脅威を防ぐためのセキュリティ対策の強化の必要性が高まっている。
本研究では,UAV分類における深層学習のアプローチを,データ不足の重要な問題に着目して検討する。
これを調べるために、私たちは合計4,500秒のオーディオサンプルを使用してモデルをトレーニングすることにしました。
パラメータ効率の良い微細チューニング(PEFT)とデータ拡張を利用してデータ不足を軽減した。
本稿では、畳み込みニューラルネットワーク(CNN)とアテンションベースのトランスフォーマーを実装、比較する。
その結果,CNNは変圧器の精度を1~2倍に向上し,計算効率は向上した。
しかしこれらの初期の発見は、トランスフォーマーモデルを使用することの可能性を示している。
今後の作業は、これらのアプローチ間のトレードオフをよりよく理解するために、データセットをスケールアップすることを目的としている。
関連論文リスト
- An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Designing Pre-training Datasets from Unlabeled Data for EEG Classification with Transformers [0.0]
本稿では,未ラベル脳波(EEG)データからラベル付きデータセットを設計する方法を提案する。
これらは、脳波信号の表現を学習するために、トランスフォーマーを事前訓練するために使用できる。
本手法を,テンプル大学清水検出コーパスのてんかん発作予知タスクで検証した。
論文 参考訳(メタデータ) (2024-09-23T13:26:13Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Collaborative Learning with a Drone Orchestrator [79.75113006257872]
インテリジェントな無線デバイス群は、ドローンの助けを借りて共有ニューラルネットワークモデルを訓練する。
提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間の平均24%と87%の削減を実現している。
論文 参考訳(メタデータ) (2023-03-03T23:46:25Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Passive Batch Injection Training Technique: Boosting Network Performance
by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。
私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文 参考訳(メタデータ) (2020-06-08T08:17:32Z) - Radioactive data: tracing through training [130.2266320167683]
本稿では,このデータセットに認識不能な変化を生じさせる新しい手法であるEmphradioactive dataを提案する。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼度(p-値)のレベルを提供する。
提案手法はディープネットワーク最適化におけるデータ拡張とバックドア性に対して堅牢である。
論文 参考訳(メタデータ) (2020-02-03T18:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。