Fugu-MT 論文翻訳(概要): A Comparative Study on Approaches to Acoustic Scene Classification using CNNs

論文の概要: A Comparative Study on Approaches to Acoustic Scene Classification using CNNs

arxiv url: http://arxiv.org/abs/2204.12177v1
Date: Tue, 26 Apr 2022 09:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-27 19:11:42.460454
Title: A Comparative Study on Approaches to Acoustic Scene Classification using CNNs
Title（参考訳）: CNNを用いた音響シーン分類手法の比較検討
Authors: Ishrat Jahan Ananya, Sarah Suad, Shadab Hafiz Choudhury and Mohammad Ashrafuzzaman Khan
Abstract要約: 異なる種類の表現は、分類の精度に劇的な影響を及ぼす。我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acoustic scene classification is a process of characterizing and classifying the environments from sound recordings. The first step is to generate features (representations) from the recorded sound and then classify the background environments. However, different kinds of representations have dramatic effects on the accuracy of the classification. In this paper, we explored the three such representations on classification accuracy using neural networks. We investigated the spectrograms, MFCCs, and embeddings representations using different CNN networks and autoencoders. Our dataset consists of sounds from three settings of indoors and outdoors environments - thus the dataset contains sound from six different kinds of environments. We found that the spectrogram representation has the highest classification accuracy while MFCC has the lowest classification accuracy. We reported our findings, insights as well as some guidelines to achieve better accuracy for environment classification using sounds.
Abstract（参考訳）: 音響シーン分類は、音の録音から環境を識別し分類するプロセスである。最初のステップは、録音された音から特徴(表現)を生成し、背景環境を分類する。しかし、異なる種類の表現は分類の精度に劇的な影響を与えている。本稿では,ニューラルネットワークを用いた分類精度に関する3つの表現について検討した。我々は、異なるcnnネットワークとオートエンコーダを用いて、スペクトログラム、mfcc、埋め込み表現を調査した。我々のデータセットは屋内と屋外の3つの環境の音で構成されており、データセットには6種類の環境の音が含まれている。その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。我々は,音を用いた環境分類の精度を向上させるためのガイドラインや知見を報告した。

関連論文リスト

Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks [0.0]
ディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、音楽、音声、環境音などの多くの領域で音声データを分類するために広く使われている。特定のCNNを訓練するために,メルスケール分光器,メル周波数ケプストラム係数 (MFCC) などの様々なスペクトル・リズム特性について検討した。多クラス分類における測定精度,精度,リコール,F1スコアは,メルスケールスペクトルとメル周波数ケプストラム係数が有意に向上したことを示す。
論文参考訳（メタデータ） (2025-09-09T13:54:41Z)
Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文参考訳（メタデータ） (2024-10-01T18:09:02Z)
Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。提案手法は,精度,リコール,精度を25%以上向上させる。
論文参考訳（メタデータ） (2024-07-03T18:33:47Z)
WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文参考訳（メタデータ） (2024-02-20T11:36:23Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Low-complexity deep learning frameworks for acoustic scene classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。 DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文参考訳（メタデータ） (2022-06-13T11:41:39Z)
Robust Feature Learning on Long-Duration Sounds for Acoustic Scene Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-11T03:33:05Z)
Training Classifiers that are Universally Robust to All Label Noise Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。我々の枠組みは概して中～高騒音レベルにおいて優れています。
論文参考訳（メタデータ） (2021-05-27T13:49:31Z)
Discriminative Singular Spectrum Classifier with Applications on Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文参考訳（メタデータ） (2021-03-18T11:01:21Z)
SoundCLR: Contrastive Learning of Representations For Improved Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2021-03-02T18:42:45Z)
An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文参考訳（メタデータ） (2020-07-15T19:41:15Z)
A Multi-view CNN-based Acoustic Classification System for Automatic Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文参考訳（メタデータ） (2020-02-23T03:51:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。