論文の概要: QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design
- arxiv url: http://arxiv.org/abs/2206.13909v1
- Date: Tue, 28 Jun 2022 11:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 11:02:56.404536
- Title: QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design
- Title(参考訳): QTIのDCASE 2021への提出:効率的な設計によるデバイス不均衡音場分類のための残留正規化
- Authors: Byeonggeun Kim, Seunghan Yang, Jangho Kim, Simyung Chang
- Abstract要約: このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
- 参考スコア(独自算出の注目度): 11.412720572948087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes the details of our TASK1A submission of the
DCASE2021 challenge. The goal of the task is to design an audio scene
classification system for device-imbalanced datasets under the constraints of
model complexity. This report introduces four methods to achieve the goal.
First, we propose Residual Normalization, a novel feature normalization method
that uses instance normalization with a shortcut path to discard unnecessary
device-specific information without losing useful information for
classification. Second, we design an efficient architecture, BC-ResNet-Mod, a
modified version of the baseline architecture with a limited receptive field.
Third, we exploit spectrogram-to-spectrogram translation from one to multiple
devices to augment training data. Finally, we utilize three model compression
schemes: pruning, quantization, and knowledge distillation to reduce model
complexity. The proposed system achieves an average test accuracy of 76.3% in
TAU Urban Acoustic Scenes 2020 Mobile, development dataset with 315k
parameters, and average test accuracy of 75.3% after compression to 61.0KB of
non-zero parameters.
- Abstract(参考訳): 本技術報告では,DCASE2021チャレンジのTASK1A提出の詳細について述べる。
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
まず,Residual Normalizationを提案する。Residual Normalizationは,ショートカットパスによるインスタンス正規化を利用して不要なデバイス固有の情報を,分類に有用な情報を失うことなく破棄する機能正規化手法である。
第2に,レセプティブフィールドが限定されたベースラインアーキテクチャの修正版である,効率的なアーキテクチャ bc-resnet-mod を設計した。
第3に,1台から複数のデバイスへのスペクトログラム変換を利用してトレーニングデータを増強する。
最後に, 3つのモデル圧縮スキーム, プルーニング, 量子化, 知識蒸留を用いて, モデルの複雑性を低減する。
提案システムは,tau都市音響シーン2020における平均テスト精度76.3%,315kパラメータを用いた開発データセット,圧縮後の平均テスト精度75.3%を61.0kbの非ゼロパラメータで達成する。
関連論文リスト
- Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction [11.15868814062321]
異なるサイズのトレーニング分割に取り組むために、3つのシステムが導入されている。
小規模なトレーニング分割のために,提案するベースラインモデルの複雑さを低減し,ベースチャネルの数を減少させることを検討した。
より大きなトレーニング分割のために、FocusNetを使用して、複数のPatchout faSt Spectrogram Transformer(PaSST)モデルと、元のサンプリングレート44.1kHzでトレーニングされたベースラインモデルのアンサンブルに、混乱したクラス情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T13:16:00Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Domain Generalization on Efficient Acoustic Scene Classification using
Residual Normalization [10.992151305603267]
効率的な設計による単一音響シーン分類システムによるマルチデバイス音声入力の処理方法に関する実践的な研究課題である。
本稿では,周波数ワイド正規化 % のインスタンス正規化をショートカットパスで利用し,不要なデバイス固有情報を破棄する特徴正規化手法であるResidual Normalizationを提案する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
論文 参考訳(メタデータ) (2021-11-12T01:57:36Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Small footprint Text-Independent Speaker Verification for Embedded
Systems [7.123796359179192]
本稿では,話者検証のための2段階モデルアーキテクチャのオーダーを共通解より桁違いに小さくする。
Raspberry Pi 3BのようなIoTシステムに典型的な小型デバイスでソリューションを実行する可能性を示し、5秒の発話で200ms未満のレイテンシを持つ。
論文 参考訳(メタデータ) (2020-11-03T13:53:05Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。