論文の概要: Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices
- arxiv url: http://arxiv.org/abs/2203.12314v1
- Date: Wed, 23 Mar 2022 10:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:24:13.672710
- Title: Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices
- Title(参考訳): ミスマッチ記録装置を用いた音響シーン分類のための広・深層ニューラルネットワークアーキテクチャ
- Authors: Lam Pham, Khoa Dinh, Dat Ngo, Hieu Tang, Alexander Schindler
- Abstract要約: 音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
- 参考スコア(独自算出の注目度): 59.86658316440461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a robust and low complexity system for Acoustic
Scene Classification (ASC), the task of identifying the scene of an audio
recording. We first construct an ASC baseline system in which a novel
inception-residual-based network architecture is proposed to deal with the
mismatched recording device issue. To further improve the performance but still
satisfy the low complexity model, we apply two techniques: ensemble of multiple
spectrograms and channel reduction on the ASC baseline system. By conducting
extensive experiments on the benchmark DCASE 2020 Task 1A Development dataset,
we achieve the best model performing an accuracy of 69.9% and a low complexity
of 2.4M trainable parameters, which is competitive to the state-of-the-art ASC
systems and potential for real-life applications on edge devices.
- Abstract(参考訳): 本稿では,音響シーン分類(asc)のためのロバストで低複雑性な音響シーン分類システムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらに性能を向上しつつも低複雑性モデルを満たすために,マルチスペクトログラムのアンサンブルとascベースラインシステムのチャネル削減という2つの手法を適用した。
ベンチマークDCASE 2020 Task 1A Developmentデータセットで広範な実験を行うことで、69.9%の精度と2.4Mのトレーニング可能なパラメータの低い複雑さを実現し、最先端のASCシステムと競合し、エッジデバイス上での現実的なアプリケーションの可能性を実現する。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - A Multi-view CNN-based Acoustic Classification System for Automatic
Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。
提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。
認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文 参考訳(メタデータ) (2020-02-23T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。