論文の概要: Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2410.06927v2
- Date: Fri, 18 Oct 2024 11:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:37:21.933182
- Title: Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks
- Title(参考訳): 深部畳み込みニューラルネットワークを用いた音声分類のためのスペクトル・リズム特性
- Authors: Friedrich Wolf-Monheim,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
デジタル画像から抽出したスペクトルおよびリズムの特徴を音響的分類に用いることができる。
メルスケール分光図, メル周波数ケプストラム係数 (MFCC) などのスペクトル・リズム特性の異なる表現について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNNs) are widely used in computer vision. They can be used not only for conventional digital image material to recognize patterns, but also for feature extraction from digital imagery representing spectral and rhythm features extracted from time-domain digital audio signals for the acoustic classification of sounds. Different spectral and rhythm feature representations like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCCs), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams are investigated in terms of the audio classification performance using a deep convolutional neural network. It can be clearly shown that the mel-scaled spectrograms and the mel-frequency cepstral coefficients (MFCCs) perform significantly better than the other spectral and rhythm features investigated in this research for audio classification tasks using deep CNNs. The experiments were carried out with the aid of the ESC-50 dataset with 2,000 labeled environmental audio recordings.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
パターンを認識するために従来のデジタル画像材料だけでなく、時間領域のデジタルオーディオ信号から抽出したスペクトルやリズムの特徴を表すデジタル画像からの特徴抽出にも使用できる。
深層畳み込みニューラルネットワークを用いた音声分類性能の観点から,メルスケールスペクトル,メル周波数ケプストラム係数(MFCC),サイクリックテンモグラム,短時間フーリエ変換(STFT)クロマグラム,定数Q変換(CQT)クロマグラム,クロマエネルギー正規化統計(CENS)クロマグラムなどのスペクトル・リズム特徴表現について検討した。
深層CNNを用いた音声分類作業において,メルスケールスペクトルとメル周波数ケプストラム係数(MFCC)は,他のスペクトル・リズム特性よりも有意に高い性能を示した。
実験はESC-50データセットと2,000のラベル付き環境オーディオ記録を用いて行われた。
関連論文リスト
- Multi-View Spectrogram Transformer for Respiratory Sound Classification [32.346046623638394]
視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-16T08:17:02Z) - Modulation Classification Through Deep Learning Using Resolution
Transformed Spectrograms [3.9511559419116224]
畳み込みニューラルネットワーク(CNN)の近代的アーキテクチャを用いた自動変調分類(AMC)手法を提案する。
我々は、受信したI/Qデータから99.61%の計算負荷削減と8倍の高速変換をもたらす分光器の分解能変換を行う。
この性能は、SqueezeNet、Resnet-50、InceptionResnet-V2、Inception-V3、VGG-16、Densenet-201といった既存のCNNモデルで評価される。
論文 参考訳(メタデータ) (2023-06-06T16:14:15Z) - Time-space-frequency feature Fusion for 3-channel motor imagery
classification [0.0]
本研究では,時間空間の周波数を考慮した新しいネットワークアーキテクチャであるTSFF-Netを紹介する。
TSFF-Netは、時間周波数表現、時間周波数特徴抽出、時間空間特徴抽出、特徴融合と分類の4つの主要コンポーネントから構成される。
実験により、TSFF-Netは、脳波復号法における単一モード特徴抽出ネットワークの欠点を補うだけでなく、他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-04T02:01:48Z) - Spectral Cross-Domain Neural Network with Soft-adaptive Threshold
Spectral Enhancement [12.837935554250409]
スペクトルクロスドメインニューラルネットワーク(SCDNN)という新しいディープラーニングモデルを提案する。
同時に、ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれたキー情報を明らかにする。
提案するSCDNNは、パブリックECGデータベースの textitPTB-XL と textitMIT-BIH に実装されたいくつかの分類タスクでテストされる。
論文 参考訳(メタデータ) (2023-01-10T14:23:43Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Cross-Spectral Periocular Recognition with Conditional Adversarial
Networks [59.17685450892182]
本研究では,近赤外・近赤外スペクトル間の近赤外画像の変換を訓練した条件付き生成逆相関ネットワークを提案する。
EER=1%, GAR>99% @ FAR=1%, ポリUデータベースの最先端技術に匹敵するスペクトル近視性能を得た。
論文 参考訳(メタデータ) (2020-08-26T15:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。