論文の概要: Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context
- arxiv url: http://arxiv.org/abs/2210.08610v1
- Date: Sun, 16 Oct 2022 19:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:14:55.692298
- Title: Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context
- Title(参考訳): ロバスト・一般・低複雑性音響シーン分類システムと音響シーンコンテキスト提示のための効果的な可視化
- Authors: Lam Pham, Dusan Salovic, Anahid Jalali, Alexander Schindler, Khoa
Tran, Canh Vu, Phu X. Nguyen
- Abstract要約: 音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
- 参考スコア(独自算出の注目度): 53.80051967863102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a comprehensive analysis of Acoustic Scene
Classification (ASC), the task of identifying the scene of an audio recording
from its acoustic signature. In particular, we firstly propose an
inception-based and low footprint ASC model, referred to as the ASC baseline.
The proposed ASC baseline is then compared with benchmark and high-complexity
network architectures of MobileNetV1, MobileNetV2, VGG16, VGG19, ResNet50V2,
ResNet152V2, DenseNet121, DenseNet201, and Xception. Next, we improve the ASC
baseline by proposing a novel deep neural network architecture which leverages
residual-inception architectures and multiple kernels. Given the novel
residual-inception (NRI) model, we further evaluate the trade off between the
model complexity and the model accuracy performance. Finally, we evaluate
whether sound events occurring in a sound scene recording can help to improve
ASC accuracy, then indicate how a sound scene context is well presented by
combining both sound scene and sound event information. We conduct extensive
experiments on various ASC datasets, including Crowded Scenes, IEEE AASP
Challenge on Detection and Classification of Acoustic Scenes and Events (DCASE)
2018 Task 1A and 1B, 2019 Task 1A and 1B, 2020 Task 1A, 2021 Task 1A, 2022 Task
1. The experimental results on several different ASC challenges highlight two
main achievements; the first is to propose robust, general, and low complexity
ASC systems which are suitable for real-life applications on a wide range of
edge devices and mobiles; the second is to propose an effective visualization
method for comprehensively presenting a sound scene context.
- Abstract(参考訳): 本稿では,音響シグネチャから音声録音のシーンを特定することを目的とした,音響シーン分類(ASC)の包括的解析を行う。
特に,まず最初に,ASCベースラインと呼ばれる,創発ベースおよび低フットプリントのASCモデルを提案する。
提案するascベースラインは、mobilenetv1, mobilenetv2, vgg16, vgg19, resnet50v2, resnet152v2, densenet121, densenet201, xceptionのベンチマークおよび高複雑さネットワークアーキテクチャと比較される。
次に、残差インセプションアーキテクチャと複数のカーネルを利用する新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
新たな残差インセプション(nri)モデルを考えると,モデルの複雑さとモデルの精度性能とのトレードオフを更に評価する。
最後に,音響シーン記録における音響イベントがasc精度の向上に寄与するかどうかを評価し,音響シーン情報と音響イベント情報を組み合わせた音響シーンコンテキストの提示方法を示す。
クラウド・シーン、IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events (DCASE) 2018 Task 1A and 1B, 2019 Task 1A and 1B, 2020 Task 1A, 2021 Task 1A, 2022 Task 1など、さまざまなASCデータセットに関する広範な実験を行った。
実験結果は,様々なエッジデバイスやモバイル上での現実的な応用に適した,堅牢で汎用的で低複雑性なASCシステムを提案すること,音環境コンテキストを包括的に提示する効果的な可視化手法を提案すること,の2つの成果を浮き彫りにした。
関連論文リスト
- Description on IEEE ICME 2024 Grand Challenge: Semi-supervised Acoustic
Scene Classification under Domain Shift [28.483681147793302]
音響シーン分類(ASC)は,音響シーン解析において重要な研究課題である。
ASCタスクの課題の1つは、トレーニングとテストデータのドメインシフトである。
ICME 2024 Grand Challengeにおいて,ドメインシフトに基づく半教師付き音響シーン分類の課題を紹介した。
論文 参考訳(メタデータ) (2024-02-05T03:12:51Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。