論文の概要: WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database
- arxiv url: http://arxiv.org/abs/2402.17775v2
- Date: Wed, 26 Jun 2024 14:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 18:55:03.175475
- Title: WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database
- Title(参考訳): WhaleNet:Watkins Marine Mammal Sound Databaseによる海洋哺乳動物ボカライゼーションのための新しいディープラーニングアーキテクチャ
- Authors: Alessandro Licciardi, Davide Carbone,
- Abstract要約: textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marine mammal communication is a complex field, hindered by the diversity of vocalizations and environmental factors. The Watkins Marine Mammal Sound Database (WMMD) constitutes a comprehensive labeled dataset employed in machine learning applications. Nevertheless, the methodologies for data preparation, preprocessing, and classification documented in the literature exhibit considerable variability and are typically not applied to the dataset in its entirety. This study initially undertakes a concise review of the state-of-the-art benchmarks pertaining to the dataset, with a particular focus on clarifying data preparation and preprocessing techniques. Subsequently, we explore the utilization of the Wavelet Scattering Transform (WST) and Mel spectrogram as preprocessing mechanisms for feature extraction. In this paper, we introduce \textbf{WhaleNet} (Wavelet Highly Adaptive Learning Ensemble Network), a sophisticated deep ensemble architecture for the classification of marine mammal vocalizations, leveraging both WST and Mel spectrogram for enhanced feature discrimination. By integrating the insights derived from WST and Mel representations, we achieved an improvement in classification accuracy by $8-10\%$ over existing architectures, corresponding to a classification accuracy of $97.61\%$.
- Abstract(参考訳): 海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性と環境要因によって妨げられている。
Watkins Marine Mammal Sound Database (WMMD)は、機械学習アプリケーションで使用される包括的なラベル付きデータセットである。
それでも、文献に記録されているデータ準備、前処理、分類の方法論は、かなりの多様性を示し、典型的にはデータセット全体に適用されない。
この研究は、まずデータセットに関連する最先端のベンチマークを簡潔にレビューし、特にデータ準備と前処理技術を明確にすることに焦点を当てた。
その後、特徴抽出のための前処理機構としてWavelet Scattering Transform(WST)とMel Spectrogramの利用について検討する。
本稿では,海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである「textbf{WhaleNet} (Wavelet Highly Adaptive Learning Ensemble Network)」を紹介する。
WST と Mel の表現から得られた知見を統合することで,既存のアーキテクチャに比べて分類精度が 8-10 % 向上し,分類精度は 97.61 % となった。
関連論文リスト
- A Novel Score-CAM based Denoiser for Spectrographic Signature Extraction without Ground Truth [0.0]
本稿では,Score-CAMをベースとした新しいデノイザを開発し,ノイズスペクトルデータからオブジェクトのシグネチャを抽出する。
特に,本論文では,スペクトルトレーニングデータの学習と生成のための,新たな生成逆ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:40:46Z) - Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Image Labels Are All You Need for Coarse Seagrass Segmentation [3.253176232272777]
海草の牧草地は重要な炭素シンクとして機能するが、それらが蓄積する炭素量の推定には海草種の知識が必要である。
過去の海草の検出と分類にはパッチレベルのラベルの監督が必要であった。
本研究では、教師なしのコントラスト事前学習と特徴類似性を利用したアーキテクチャであるSeaFeatsと、大規模言語モデルの有効性を示すモデルであるSeaCLIPを紹介する。
論文 参考訳(メタデータ) (2023-03-02T05:10:57Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。