論文の概要: A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs
- arxiv url: http://arxiv.org/abs/2204.12177v1
- Date: Tue, 26 Apr 2022 09:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 19:11:42.460454
- Title: A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs
- Title(参考訳): CNNを用いた音響シーン分類手法の比較検討
- Authors: Ishrat Jahan Ananya, Sarah Suad, Shadab Hafiz Choudhury and Mohammad
Ashrafuzzaman Khan
- Abstract要約: 異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic scene classification is a process of characterizing and classifying
the environments from sound recordings. The first step is to generate features
(representations) from the recorded sound and then classify the background
environments. However, different kinds of representations have dramatic effects
on the accuracy of the classification. In this paper, we explored the three
such representations on classification accuracy using neural networks. We
investigated the spectrograms, MFCCs, and embeddings representations using
different CNN networks and autoencoders. Our dataset consists of sounds from
three settings of indoors and outdoors environments - thus the dataset contains
sound from six different kinds of environments. We found that the spectrogram
representation has the highest classification accuracy while MFCC has the
lowest classification accuracy. We reported our findings, insights as well as
some guidelines to achieve better accuracy for environment classification using
sounds.
- Abstract(参考訳): 音響シーン分類は、音の録音から環境を識別し分類するプロセスである。
最初のステップは、録音された音から特徴(表現)を生成し、背景環境を分類する。
しかし、異なる種類の表現は分類の精度に劇的な影響を与えている。
本稿では,ニューラルネットワークを用いた分類精度に関する3つの表現について検討した。
我々は、異なるcnnネットワークとオートエンコーダを用いて、スペクトログラム、mfcc、埋め込み表現を調査した。
我々のデータセットは屋内と屋外の3つの環境の音で構成されており、データセットには6種類の環境の音が含まれている。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
我々は,音を用いた環境分類の精度を向上させるためのガイドラインや知見を報告した。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z) - A Multi-view CNN-based Acoustic Classification System for Automatic
Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。
提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。
認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文 参考訳(メタデータ) (2020-02-23T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。