論文の概要: Domain Generalization on Efficient Acoustic Scene Classification using
Residual Normalization
- arxiv url: http://arxiv.org/abs/2111.06531v1
- Date: Fri, 12 Nov 2021 01:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:53:19.751648
- Title: Domain Generalization on Efficient Acoustic Scene Classification using
Residual Normalization
- Title(参考訳): 残留正規化を用いた効率的な音響シーン分類の領域一般化
- Authors: Byeonggeun Kim, Seunghan Yang, Jangho Kim, Simyung Chang
- Abstract要約: 効率的な設計による単一音響シーン分類システムによるマルチデバイス音声入力の処理方法に関する実践的な研究課題である。
本稿では,周波数ワイド正規化 % のインスタンス正規化をショートカットパスで利用し,不要なデバイス固有情報を破棄する特徴正規化手法であるResidual Normalizationを提案する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
- 参考スコア(独自算出の注目度): 10.992151305603267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a practical research topic how to deal with multi-device audio inputs
by a single acoustic scene classification system with efficient design. In this
work, we propose Residual Normalization, a novel feature normalization method
that uses frequency-wise normalization % instance normalization with a shortcut
path to discard unnecessary device-specific information without losing useful
information for classification. Moreover, we introduce an efficient
architecture, BC-ResNet-ASC, a modified version of the baseline architecture
with a limited receptive field. BC-ResNet-ASC outperforms the baseline
architecture even though it contains the small number of parameters. Through
three model compression schemes: pruning, quantization, and knowledge
distillation, we can reduce model complexity further while mitigating the
performance degradation. The proposed system achieves an average test accuracy
of 76.3% in TAU Urban Acoustic Scenes 2020 Mobile, development dataset with
315k parameters, and average test accuracy of 75.3% after compression to 61.0KB
of non-zero parameters. The proposed method won the 1st place in DCASE 2021
challenge, TASK1A.
- Abstract(参考訳): 効率的な音響シーン分類システムにより,マルチデバイス音声入力を効果的に扱うための実践的な研究課題である。
そこで本研究では,周波数別正規化 % インスタンス正規化とショートカットパスを併用した新しい特徴正規化手法である残差正規化法を提案する。
さらに,BC-ResNet-ASCという,限られた受容場を持つベースラインアーキテクチャの修正版を導入する。
BC-ResNet-ASCは、少数のパラメータを含むにもかかわらず、ベースラインアーキテクチャよりも優れている。
プルーニング,量子化,知識蒸留の3つのモデル圧縮スキームにより,性能劣化を軽減しつつ,モデルの複雑さをさらに軽減することができる。
提案システムは,tau都市音響シーン2020における平均テスト精度76.3%,315kパラメータを用いた開発データセット,圧縮後の平均テスト精度75.3%を61.0kbの非ゼロパラメータで達成する。
提案手法はdcase 2021 challenge, task1aで1位となった。
関連論文リスト
- Asca: less audio data is more insightful [10.354385253247761]
本稿では,CoAtNetに基づくASCA(Audio Spectrogram Convolution Attention)を紹介する。
BirdCLEF2023とAudioSet(Balanced)では、それぞれ81.2%と35.1%の精度を達成した。
モデル固有の構造は出力を豊かにし、様々な音声検出タスクをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2023-09-23T13:24:06Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Sub-8-bit quantization for on-device speech recognition: a
regularization-free approach [19.84792318335999]
General Quantizer (GQ) は、自己調整可能なセントロイドを持つ正規化フリーの「ソフトからハード」圧縮機構である。
GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。
論文 参考訳(メタデータ) (2022-10-17T15:42:26Z) - QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design [11.412720572948087]
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
論文 参考訳(メタデータ) (2022-06-28T11:42:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。