論文の概要: Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2509.07756v1
- Date: Tue, 09 Sep 2025 13:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.341007
- Title: Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks
- Title(参考訳): 深部畳み込みニューラルネットワークを用いたカテゴリー・クラス音声分類のためのスペクトル・リズム特性評価
- Authors: Friedrich Wolf-Monheim,
- Abstract要約: ディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、音楽、音声、環境音などの多くの領域で音声データを分類するために広く使われている。
特定のCNNを訓練するために,メルスケール分光器,メル周波数ケプストラム係数 (MFCC) などの様々なスペクトル・リズム特性について検討した。
多クラス分類における測定精度,精度,リコール,F1スコアは,メルスケールスペクトルとメル周波数ケプストラム係数が有意に向上したことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Next to decision tree and k-nearest neighbours algorithms deep convolutional neural networks (CNNs) are widely used to classify audio data in many domains like music, speech or environmental sounds. To train a specific CNN various spectral and rhythm features like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams can be used as digital image input data for the neural network. The performance of these spectral and rhythm features for audio category level as well as audio class level classification is investigated in detail with a deep CNN and the ESC-50 dataset with 2,000 labeled environmental audio recordings using an end-to-end deep learning pipeline. The evaluated metrics accuracy, precision, recall and F1 score for multiclass classification clearly show that the mel-scaled spectrograms and the mel-frequency cepstral coefficients (MFCC) perform significantly better then the other spectral and rhythm features investigated in this research for audio classification tasks using deep CNNs.
- Abstract(参考訳): 決定木とk-アネレスの隣り合うアルゴリズムは、音楽、音声、環境音などの多くの領域で音声データを分類するために広く使われている。
ニューラルネットワークのデジタル画像入力データとして、メルスケールスペクトル、メル周波数ケプストラム係数(MFCC)、サイクリックトモグラム、短時間フーリエ変換(STFT)クロマグラム、定数Q変換(CQT)クロマグラム、クロマエネルギー正規化統計(CENS)クロマグラムなど、特定のCNNのスペクトルおよびリズムの特徴を訓練する。
深層CNNとESC-50データセットを用いて, エンドツーエンドの深層学習パイプラインを用いた2000のラベル付き環境オーディオ記録を用いて, これらのスペクトル・リズム特性と音声カテゴリレベルの分類性能を詳細に検討した。
マルチクラス分類における測定精度,精度,リコール,F1スコアは,メルスケールスペクトルとメル周波数ケプストラム係数(MFCC)が有意に向上したことを示す。
関連論文リスト
- Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。
可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。
実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-06-24T21:14:59Z) - Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
デジタル画像から抽出したスペクトルおよびリズムの特徴を音響的分類に用いることができる。
メルスケール分光図, メル周波数ケプストラム係数 (MFCC) などのスペクトル・リズム特性の異なる表現について検討した。
論文 参考訳(メタデータ) (2024-10-09T14:21:59Z) - Spectral Cross-Domain Neural Network with Soft-adaptive Threshold
Spectral Enhancement [12.837935554250409]
スペクトルクロスドメインニューラルネットワーク(SCDNN)という新しいディープラーニングモデルを提案する。
同時に、ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれたキー情報を明らかにする。
提案するSCDNNは、パブリックECGデータベースの textitPTB-XL と textitMIT-BIH に実装されたいくつかの分類タスクでテストされる。
論文 参考訳(メタデータ) (2023-01-10T14:23:43Z) - Learning Temporal Resolution in Spectrogram for Audio Classification [40.80903296278466]
本稿では,音声分類のための時間分解能の識別が可能な新しい手法DiffResを提案する。
固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。
固定時間分解能を用いた従来の手法と比較して、DiffResベースの手法は、少なくとも25%の計算コスト削減で同等またはより良い分類精度を達成することができる。
論文 参考訳(メタデータ) (2022-10-04T16:18:50Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。