論文の概要: DCASE 2022: Comparative Analysis Of CNNs For Acoustic Scene
Classification Under Low-Complexity Considerations
- arxiv url: http://arxiv.org/abs/2206.08007v1
- Date: Thu, 16 Jun 2022 09:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:56:41.773108
- Title: DCASE 2022: Comparative Analysis Of CNNs For Acoustic Scene
Classification Under Low-Complexity Considerations
- Title(参考訳): DCASE 2022:低複雑さを考慮した音響シーン分類のためのCNNの比較分析
- Authors: Josep Zaragoza-Paredes, Javier Naranjo-Alcazar, Valery Naranjo and
Pedro Zuccarello
- Abstract要約: 本稿では,従来のCNNとConv-mixerの2つの異なるネットワークアーキテクチャについて比較検討する。
両ネットワークは競合が必要とするベースラインを超えているが、従来のCNNの方が高い性能を示している。
Conv-mixerアーキテクチャに基づくソリューションは、より軽量なソリューションであるにもかかわらず、パフォーマンスが悪くなる。
- 参考スコア(独自算出の注目度): 1.6704594205447996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene classification is an automatic listening problem that aims to
assign an audio recording to a pre-defined scene based on its audio data. Over
the years (and in past editions of the DCASE) this problem has often been
solved with techniques known as ensembles (use of several machine learning
models to combine their predictions in the inference phase). While these
solutions can show performance in terms of accuracy, they can be very expensive
in terms of computational capacity, making it impossible to deploy them in IoT
devices. Due to the drift in this field of study, this task has two limitations
in terms of model complexity. It should be noted that there is also the added
complexity of mismatching devices (the audios provided are recorded by
different sources of information). This technical report makes a comparative
study of two different network architectures: conventional CNN and Conv-mixer.
Although both networks exceed the baseline required by the competition, the
conventional CNN shows a higher performance, exceeding the baseline by 8
percentage points. Solutions based on Conv-mixer architectures show worse
performance although they are much lighter solutions.
- Abstract(参考訳): 音響シーン分類は、音声データに基づいて予め定義されたシーンに音声録音を割り当てることを目的とした自動聴取問題である。
長年にわたり(そして過去のdcaseの版では)この問題はアンサンブルと呼ばれる手法で解決されてきた(推論フェーズで予測を組み合わせるためにいくつかの機械学習モデルを使用する)。
これらのソリューションは精度でパフォーマンスを示すことができるが、計算能力の面では非常に高価であり、IoTデバイスにデプロイすることは不可能である。
この研究分野におけるドリフトのため、このタスクはモデル複雑性の点で2つの制限がある。
また、ミスマッチデバイス(提供されたオーディオは異なる情報源によって記録される)の複雑さも増している点に注意が必要だ。
この技術報告では、従来のCNNとConv-mixerの2つの異なるネットワークアーキテクチャを比較した。
どちらのネットワークも競合が必要とするベースラインを上回っているが、従来のcnnはベースラインを8ポイント上回る高いパフォーマンスを示している。
Conv-mixerアーキテクチャに基づくソリューションは、より軽量なソリューションであるにもかかわらず、パフォーマンスが悪くなる。
関連論文リスト
- Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Low-complexity CNNs for Acoustic Scene Classification [23.661189257759535]
本稿では,音響シーン分類(ASC)のための低複雑さフレームワークを提案する。
ASC用に設計されたフレームワークのほとんどは、学習能力とパフォーマンスの向上により、畳み込みニューラルネットワーク(CNN)を使用している。
CNNは、大きなサイズと高い計算複雑性のためにリソースが空いている。
論文 参考訳(メタデータ) (2022-07-23T14:37:39Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint [4.4973334555746]
音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
本報告のサブタスクは、モデルの複雑さによって制約されるASC問題に対応する。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-07-30T14:24:45Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Acoustic Scene Classification with Squeeze-Excitation Residual Networks [4.591851728010269]
残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
このような演算子を実装したブロックの振舞いは、ブロックへの入力に応じてニューラルネットワーク全体を変更することができる。
論文 参考訳(メタデータ) (2020-03-20T14:07:11Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。