論文の概要: Wavelet Scattering Transform for Bioacustics: Application to Watkins
Marine Mammal Sound Database
- arxiv url: http://arxiv.org/abs/2402.17775v1
- Date: Tue, 20 Feb 2024 11:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:09:24.572967
- Title: Wavelet Scattering Transform for Bioacustics: Application to Watkins
Marine Mammal Sound Database
- Title(参考訳): バイオアコースティックスのためのウェーブレット散乱変換:Watkins Marine Mammal Sound Databaseへの応用
- Authors: Davide Carbone (1 and 2) and Alessandro Licciardi (1 and 2) ((1)
Politecnico di Torino, (2) Istituto Nazionale di Fisica Nucleare Sezione di
Torino)
- Abstract要約: Watkins Marine Mammal Sound Database (WMMD)は、機械学習アプリケーションで使用される広範囲なラベル付きデータセットである。
この研究はまず、データセットの最先端ベンチマークの簡単なレビューに焦点を当てる。
標準手法の代わりにウェーブレット散乱変換(WST)の適用を提案する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marine mammal communication is a complex field, hindered by the diversity of
vocalizations and environmental factors. The Watkins Marine Mammal Sound
Database (WMMD) is an extensive labeled dataset used in machine learning
applications. However, the methods for data preparation, preprocessing, and
classification found in the literature are quite disparate. This study first
focuses on a brief review of the state-of-the-art benchmarks on the dataset,
with an emphasis on clarifying data preparation and preprocessing methods.
Subsequently, we propose the application of the Wavelet Scattering Transform
(WST) in place of standard methods based on the Short-Time Fourier Transform
(STFT). The study also tackles a classification task using an ad-hoc deep
architecture with residual layers. We outperform the existing classification
architecture by $6\%$ in accuracy using WST and $8\%$ using Mel spectrogram
preprocessing, effectively reducing by half the number of misclassified
samples, and reaching a top accuracy of $96\%$.
- Abstract(参考訳): 海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性と環境要因によって妨げられている。
Watkins Marine Mammal Sound Database (WMMD)は、機械学習アプリケーションで使用される広範囲なラベル付きデータセットである。
しかし、文献に見られるデータ準備、前処理、分類の方法はかなり異なっていた。
本研究はまず,データセットにおける最先端ベンチマークの概要を概観し,データ準備法と前処理法の明確化に重点を置く。
次に、短時間フーリエ変換(STFT)に基づく標準手法の代わりに、ウェーブレット散乱変換(WST)の適用を提案する。
この研究はまた、残層を持つアドホックなディープアーキテクチャを用いた分類タスクにも取り組んでいる。
我々は,既存の分類アーキテクチャをwstを用いた6-%$,メルスペクトログラム前処理を用いた8-%$で上回り,誤分類されたサンプルの半数を効果的に削減し,最高精度を96-%$に到達した。
関連論文リスト
- Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Learning to Adapt to Domain Shifts with Few-shot Samples in Anomalous
Sound Detection [7.631596468553607]
異常検出は、産業機器の監視など、多くの重要な応用がある。
サンプルの少ない新しい条件に適応するフレームワークを提案する。
提案手法は,最近リリースされた各種機械の音響測定データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-05T00:22:25Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Multi-class Gaussian Process Classification with Noisy Inputs [2.362412515574206]
いくつかの状況では、騒音の量は事前に知ることができる。
提案手法を,合成データと実データを含むいくつかの実験により評価した。
論文 参考訳(メタデータ) (2020-01-28T18:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。