論文の概要: Advanced Framework for Animal Sound Classification With Features Optimization
- arxiv url: http://arxiv.org/abs/2407.03440v1
- Date: Wed, 3 Jul 2024 18:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:10:41.345221
- Title: Advanced Framework for Animal Sound Classification With Features Optimization
- Title(参考訳): 特徴最適化による動物音分類の高度化
- Authors: Qiang Yang, Xiuying Chen, Changsheng Ma, Carlos M. Duarte, Xiangliang Zhang,
- Abstract要約: 一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
- 参考スコア(独自算出の注目度): 35.2832738406242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic classification of animal sounds presents an enduring challenge in bioacoustics, owing to the diverse statistical properties of sound signals, variations in recording equipment, and prevalent low Signal-to-Noise Ratio (SNR) conditions. Deep learning models like Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) have excelled in human speech recognition but have not been effectively tailored to the intricate nature of animal sounds, which exhibit substantial diversity even within the same domain. We propose an automated classification framework applicable to general animal sound classification. Our approach first optimizes audio features from Mel-frequency cepstral coefficients (MFCC) including feature rearrangement and feature reduction. It then uses the optimized features for the deep learning model, i.e., an attention-based Bidirectional LSTM (Bi-LSTM), to extract deep semantic features for sound classification. We also contribute an animal sound benchmark dataset encompassing oceanic animals and birds1. Extensive experimentation with real-world datasets demonstrates that our approach consistently outperforms baseline methods by over 25% in precision, recall, and accuracy, promising advancements in animal sound classification.
- Abstract(参考訳): 動物音の自動分類は、音声信号の多様な統計的特性、記録装置のバリエーション、および有意な低信号-雑音比(SNR)条件により、生体音響学における持続的な課題を示す。
畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)のようなディープラーニングモデルは、人間の音声認識に優れていますが、動物音の複雑な性質に効果的に適合していません。
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,Mel- frequency cepstral coefficients (MFCC) の音響特性を最適化する。
次に、深層学習モデル、すなわち注目に基づく双方向LSTM(Bidirectional LSTM)に最適化された特徴を用いて、音の分類のための深い意味的特徴を抽出する。
また,海洋動物と鳥類1を対象とする動物音響ベンチマークデータセットも提供した。
実世界のデータセットによる大規模な実験により、我々の手法は、精度、リコール、精度が25%以上向上し、動物の音の分類の進歩が期待できることを示した。
関連論文リスト
- On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文 参考訳(メタデータ) (2024-07-23T12:00:44Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文 参考訳(メタデータ) (2022-04-26T09:23:29Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - A Multi-view CNN-based Acoustic Classification System for Automatic
Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。
提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。
認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文 参考訳(メタデータ) (2020-02-23T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。