論文の概要: SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification
- arxiv url: http://arxiv.org/abs/2103.01929v1
- Date: Tue, 2 Mar 2021 18:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 18:57:52.133317
- Title: SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification
- Title(参考訳): SoundCLR:環境音の分類改善のための表現のコントラスト学習
- Authors: Alireza Nasiri, and Jianjun Hu
- Abstract要約: SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 0.6767885381740952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental Sound Classification (ESC) is a challenging field of research
in non-speech audio processing. Most of current research in ESC focuses on
designing deep models with special architectures tailored for specific audio
datasets, which usually cannot exploit the intrinsic patterns in the data.
However recent studies have surprisingly shown that transfer learning from
models trained on ImageNet is a very effective technique in ESC. Herein, we
propose SoundCLR, a supervised contrastive learning method for effective
environment sound classification with state-of-the-art performance, which works
by learning representations that disentangle the samples of each class from
those of other classes. Our deep network models are trained by combining a
contrastive loss that contributes to a better probability output by the
classification layer with a cross-entropy loss on the output of the classifier
layer to map the samples to their respective 1-hot encoded labels. Due to the
comparatively small sizes of the available environmental sound datasets, we
propose and exploit a transfer learning and strong data augmentation pipeline
and apply the augmentations on both the sound signals and their log-mel
spectrograms before inputting them to the model. Our experiments show that our
masking based augmentation technique on the log-mel spectrograms can
significantly improve the recognition performance. Our extensive benchmark
experiments show that our hybrid deep network models trained with combined
contrastive and cross-entropy loss achieved the state-of-the-art performance on
three benchmark datasets ESC-10, ESC-50, and US8K with validation accuracies of
99.75\%, 93.4\%, and 86.49\% respectively. The ensemble version of our models
also outperforms other top ensemble methods. The code is available at
https://github.com/alireza-nasiri/SoundCLR.
- Abstract(参考訳): 環境音分類(ESC)は、非音声音声処理の研究の挑戦的な分野です。
escにおける現在の研究のほとんどは、特定のオーディオデータセットに合わせた特殊なアーキテクチャを持つ深層モデルの設計に重点を置いている。
しかし最近の研究では、ImageNetで訓練されたモデルからの転送学習がESCで非常に効果的な技術であることを驚くほど示しています。
本稿では,各クラスのサンプルを他のクラスから切り離した表現を学習する,最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習法であるSoundCLRを提案する。
当社のディープネットワークモデルは、分類層によるより良い確率出力に寄与するコントラスト損失と、分類層の出力におけるクロスエントロピー損失を組み合わせて、サンプルをそれぞれの1ホットエンコードラベルにマッピングすることによって訓練されます。
利用可能な環境音データセットの比較的小さなサイズのために、我々は、転送学習と強力なデータ拡張パイプラインを提案し、モデルに入力する前に、音信号とそのログメル分光器の両方に増分を適用します。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
ESC-10, ESC-50, US8K, 検証精度99.75\%, 93.4\%, 86.49\%の3つのベンチマークデータセットにおいて, 比較対象とクロスエントロピー損失を併用してトレーニングしたハイブリッドディープネットワークモデルの有効性が示された。
私たちのモデルのアンサンブルバージョンは、他のトップアンサンブルメソッドよりも優れています。
コードはhttps://github.com/alireza-nasiri/SoundCLRで入手できる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Improved Zero-Shot Audio Tagging & Classification with Patchout
Spectrogram Transformers [7.817685358710508]
Zero-Shot(ZS)学習は、適応可能なクラス記述に基づいてクラスを予測することによって制約を克服する。
本研究では,ZS学習における自己注意型音声埋め込みアーキテクチャの有効性について検討する。
論文 参考訳(メタデータ) (2022-08-24T09:48:22Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Augmentation Strategies for Learning with Noisy Labels [3.698228929379249]
ノイズラベル付き学習」問題に取り組むアルゴリズムについて,様々な拡張戦略を評価した。
ロスモデリングタスクと学習のための別のセットに拡張の1つのセットを使用することが最も効果的であることがわかります。
我々は,この拡張戦略を最先端技術に導入し,評価されたすべての騒音レベルにおける性能向上を実証する。
論文 参考訳(メタデータ) (2021-03-03T02:19:35Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。