論文の概要: An Ensemble of Convolutional Neural Networks for Audio Classification
- arxiv url: http://arxiv.org/abs/2007.07966v2
- Date: Tue, 27 Apr 2021 22:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 06:48:10.696364
- Title: An Ensemble of Convolutional Neural Networks for Audio Classification
- Title(参考訳): 音声分類のための畳み込みニューラルネットワークの集合
- Authors: Loris Nanni, Gianluca Maguolo, Sheryl Brahnam, Michelangelo Paci
- Abstract要約: 音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
- 参考スコア(独自算出の注目度): 9.174145063580882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, ensembles of classifiers that exploit several data
augmentation techniques and four signal representations for training
Convolutional Neural Networks (CNNs) for audio classification are presented and
tested on three freely available audio classification datasets: i) bird calls,
ii) cat sounds, and iii) the Environmental Sound Classification dataset. The
best performing ensembles combining data augmentation techniques with different
signal representations are compared and shown to outperform the best methods
reported in the literature on these datasets. The approach proposed here
obtains state-of-the-art results in the widely used ESC-50 dataset. To the best
of our knowledge, this is the most extensive study investigating ensembles of
CNNs for audio classification. Results demonstrate not only that CNNs can be
trained for audio classification but also that their fusion using different
techniques works better than the stand-alone classifiers.
- Abstract(参考訳): 本稿では,音声分類用畳み込みニューラルネットワーク(CNN)を学習用として,複数のデータ拡張手法と4つの信号表現を利用する分類器のアンサンブルを提示し,利用可能な3つの音声分類データセットで検証する。
i) 鳥の鳴き声,
二 猫の音及び
三 環境音分類データセット
異なる信号表現とデータ拡張技術を組み合わせた最高の演奏アンサンブルを比較し,これらのデータセットの文献で報告された最良の方法より優れていることを示す。
ここで提案する手法は、広く使われているESC-50データセットの最先端結果を得る。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
結果は、CNNが音声分類のために訓練できるだけでなく、異なる技術を用いた融合がスタンドアロンの分類器よりも優れていることを示す。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文 参考訳(メタデータ) (2022-04-26T09:23:29Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Decoding Imagined Speech using Wavelet Features and Deep Neural Networks [2.4063592468412267]
本稿では, 深層ニューラルネットワークを用いた予測音声の分類手法を提案する。
提案手法では、脳の特定の領域にのみEEGチャネルを用いて分類し、それぞれのチャネルから特徴ベクトルを導出する。
提案したアーキテクチャとデータ処理のアプローチにより,57.15%の平均分類精度が向上し,最先端の結果よりも約35%向上した。
論文 参考訳(メタデータ) (2020-03-19T00:36:19Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。