論文の概要: Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation
- arxiv url: http://arxiv.org/abs/2007.08389v2
- Date: Thu, 27 Aug 2020 00:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 00:17:09.774240
- Title: Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation
- Title(参考訳): 2段階分類とデータ拡張に基づくデバイスロバスト音響シーン分類
- Authors: Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian
Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun
Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee
- Abstract要約: 我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
- 参考スコア(独自算出の注目度): 63.98724740606457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we present a joint effort of four groups, namely
GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification
(ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks:
(i) Task 1a focuses on ASC of audio signals recorded with multiple (real and
simulated) devices into ten different fine-grained classes, and (ii) Task 1b
concerns with classification of data into three higher-level classes using
low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system
leveraging upon ad-hoc score combination of two convolutional neural networks
(CNNs), classifying the acoustic input according to three classes, and then ten
classes, respectively. Four different CNN-based architectures are explored to
implement the two-stage classifiers, and several data augmentation techniques
are also investigated. For Task 1b, we leverage upon a quantization method to
reduce the complexity of two of our top-accuracy three-classes CNN-based
architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is
attained using our best single classifier and data augmentation. An accuracy of
81.9\% is then attained by a final model fusion of our two-stage ASC
classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\%
with a model size smaller than 500KB. Code is available:
https://github.com/MihawkHu/DCASE2020_task1.
- Abstract(参考訳): 本報告では,gt,ustc,tencent,ukeの4つのグループによる,dcase 2020チャレンジにおけるタスク1 - 音響シーン分類(asc)に取り組むための共同作業について述べる。
タスク1は2つの異なるサブタスクから構成される。
(i)タスク1aは、複数の(実・模擬)デバイスで記録された音声信号のASCを10種類のきめ細かいクラスに焦点を合わせ、
(II)タスク1bは、低複雑さ解を用いた3つの上位クラスに分類する。
タスク1aでは,2つの畳み込みニューラルネットワーク(CNN)のアドホックスコアの組み合わせを利用して,音響入力を3つのクラス,次に10つのクラスに分類する新しい2段階ASCシステムを提案する。
4つの異なるCNNアーキテクチャを2段階分類器の実装に適用し,データ拡張手法についても検討した。
タスク1bでは、量子化手法を利用して、上位3クラスCNNアーキテクチャの2つの複雑さを低減します。
タスク1aの開発データセットでは、最高の単一分類器とデータ拡張を用いて、ASCの精度76.9\%を達成する。
81.9\%の精度は、2段階のASC分類器の最終モデル融合によって達成される。
Task 1bの開発データセットでは,500KB以下のモデルサイズで96.7\%の精度を実現する。
コードはhttps://github.com/mihawkhu/dcase2020_task1。
関連論文リスト
- Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - TechTexC: Classification of Technical Texts using Convolution and
Bidirectional Long Short Term Memory Network [0.0]
3つの手法を用いて分類処理を行うための分類システム(TechTexC)を開発した。
その結果,BiLSTMモデルを用いたCNNは,サブタスク (a,b,c,g) とタスク-2aのタスク-1に関する他の手法よりも優れていた。
テストセットの場合、cnnとbilstmの併用により、サブタスク1a (70.76%), 1b (79.97%), 1c (65.45%), 1g (49.23%), 2a (70.14%) の精度が向上した。
論文 参考訳(メタデータ) (2020-12-21T15:22:47Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。