論文の概要: A Two-Stage Approach to Device-Robust Acoustic Scene Classification
- arxiv url: http://arxiv.org/abs/2011.01447v1
- Date: Tue, 3 Nov 2020 03:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:42:33.441585
- Title: A Two-Stage Approach to Device-Robust Acoustic Scene Classification
- Title(参考訳): デバイスロバスト音響シーン分類における2段階アプローチ
- Authors: Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian
Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun
Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee
- Abstract要約: デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
- 参考スコア(独自算出の注目度): 63.98724740606457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To improve device robustness, a highly desirable key feature of a competitive
data-driven acoustic scene classification (ASC) system, a novel two-stage
system based on fully convolutional neural networks (CNNs) is proposed. Our
two-stage system leverages on an ad-hoc score combination based on two CNN
classifiers: (i) the first CNN classifies acoustic inputs into one of three
broad classes, and (ii) the second CNN classifies the same inputs into one of
ten finer-grained classes. Three different CNN architectures are explored to
implement the two-stage classifiers, and a frequency sub-sampling scheme is
investigated. Moreover, novel data augmentation schemes for ASC are also
investigated. Evaluated on DCASE 2020 Task 1a, our results show that the
proposed ASC system attains a state-of-the-art accuracy on the development set,
where our best system, a two-stage fusion of CNN ensembles, delivers a 81.9%
average accuracy among multi-device test data, and it obtains a significant
improvement on unseen devices. Finally, neural saliency analysis with class
activation mapping (CAM) gives new insights on the patterns learnt by our
models.
- Abstract(参考訳): デバイスロバスト性を改善するため,完全畳み込みニューラルネットワーク(CNN)に基づく新たな2段階システムである競争データ駆動型音響シーン分類(ASC)システムの,極めて望ましい鍵となる機能を提案する。
我々の2段階システムは、2つのCNN分類器に基づくアドホックスコアの組み合わせを利用する。
i)第1のCNNは、音響入力を3つの広いクラスのうちの1つに分類し、
(ii)第2のcnnは、同じ入力を10のきめ細かいクラスのうちの1つに分類する。
2段階分類器を実装するために3つの異なるCNNアーキテクチャを探索し,周波数サブサンプリング方式を検討した。
また,新しいascデータ拡張方式についても検討した。
dcase 2020タスク1aで評価した結果,提案するascシステムは,cnnアンサンブルの2段階融合方式により,マルチデバイステストデータにおいて81.9%の精度を実現し,未認識のデバイスに対して有意な改善が得られた。
最後に,クラスアクティベーションマッピング(cam)を用いたニューラルサリエンシー解析によって,モデルが学習したパターンに関する新たな洞察が得られます。
関連論文リスト
- AFEN: Respiratory Disease Classification using Ensemble Learning [2.524195881002773]
本稿では、畳み込みニューラルネットワーク(CNN)とXGBoostを利用するモデルであるAFEN(Audio Feature Learning)を提案する。
我々は、データの健全な属性を提供し、正確な分類を可能にする、巧妙に選択されたオーディオ特徴の組み合わせを使用する。
AFENがPrecisionとRecallをメトリクスとして利用し、トレーニング時間を60%削減し、新たな最先端技術の設定を実証的に検証した。
論文 参考訳(メタデータ) (2024-05-08T23:50:54Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Automatic Machine Learning for Multi-Receiver CNN Technology Classifiers [16.244541005112747]
畳み込みニューラルネットワーク(CNN)は、信号分類のための最も研究されているディープラーニングモデルの1つである。
我々は、複数の同期受信機から収集した生のI/Qサンプルに基づく技術分類に焦点を当てた。
論文 参考訳(メタデータ) (2022-04-28T23:41:38Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。