論文の概要: Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction
- arxiv url: http://arxiv.org/abs/2409.11964v1
- Date: Wed, 18 Sep 2024 13:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:36:39.594741
- Title: Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction
- Title(参考訳): 教師インフォームド・コンユース・クラス・インストラクションを用いたデータ効率の良い音響シーン分類
- Authors: Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan,
- Abstract要約: 異なるサイズのトレーニング分割に取り組むために、3つのシステムが導入されている。
小規模なトレーニング分割のために,提案するベースラインモデルの複雑さを低減し,ベースチャネルの数を減少させることを検討した。
より大きなトレーニング分割のために、FocusNetを使用して、複数のPatchout faSt Spectrogram Transformer(PaSST)モデルと、元のサンプリングレート44.1kHzでトレーニングされたベースラインモデルのアンサンブルに、混乱したクラス情報を提供する。
- 参考スコア(独自算出の注目度): 11.15868814062321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we describe the SNTL-NTU team's submission for Task 1 Data-Efficient Low-Complexity Acoustic Scene Classification of the detection and classification of acoustic scenes and events (DCASE) 2024 challenge. Three systems are introduced to tackle training splits of different sizes. For small training splits, we explored reducing the complexity of the provided baseline model by reducing the number of base channels. We introduce data augmentation in the form of mixup to increase the diversity of training samples. For the larger training splits, we use FocusNet to provide confusing class information to an ensemble of multiple Patchout faSt Spectrogram Transformer (PaSST) models and baseline models trained on the original sampling rate of 44.1 kHz. We use Knowledge Distillation to distill the ensemble model to the baseline student model. Training the systems on the TAU Urban Acoustic Scene 2022 Mobile development dataset yielded the highest average testing accuracy of (62.21, 59.82, 56.81, 53.03, 47.97)% on split (100, 50, 25, 10, 5)% respectively over the three systems.
- Abstract(参考訳): 本技術報告では,SNTL-NTUチームによるタスク1データ効率の低い音響シーンの分類と音響シーン・イベントの検出・分類(DCASE)2024課題について述べる。
異なるサイズのトレーニング分割に取り組むために、3つのシステムが導入されている。
小規模なトレーニング分割のために,提案するベースラインモデルの複雑さを減らし,ベースチャネルの数を減らして検討した。
トレーニングサンプルの多様性を高めるために,データ拡張をミックスアップ形式で導入する。
より大きなトレーニング分割のために、FocusNetを使用して、複数のPatchout faSt Spectrogram Transformer(PaSST)モデルと、元のサンプリングレート44.1kHzでトレーニングされたベースラインモデルのアンサンブルに、混乱したクラス情報を提供する。
我々は知識蒸留を用いてアンサンブルモデルをベースラインの学生モデルに蒸留する。
2022年のTAUアーバン・アコースティック・シーンのシステムのトレーニングでは、3つのシステムでそれぞれ(100, 50, 25, 10, 5)%で(62.21, 59.82, 56.81, 53.03, 47.97)%の平均テスト精度が得られた。
関連論文リスト
- Low-complexity deep learning frameworks for acoustic scene
classification using teacher-student scheme and multiple spectrograms [59.86658316440461]
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要求を満たすとともに,57.4%の最高の分類精度を達成した。
論文 参考訳(メタデータ) (2023-05-16T14:21:45Z) - QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design [11.412720572948087]
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
論文 参考訳(メタデータ) (2022-06-28T11:42:52Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Deep Transfer Learning for WiFi Localization [4.260395796577057]
本稿では,深層学習モデルを用いたWiFi屋内ローカライズ手法とその転送戦略について検討する。
障害物のない理想的なオフィス(6.5m×2.5m)で46.55cm、障害物のあるオフィスで58.30cm、スポーツホールで102.8cmのローカライズ精度を達成する。
論文 参考訳(メタデータ) (2021-03-08T22:21:40Z) - Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation [95.31590177308482]
我々は,トレーニング期間中に複数のトレーニング損失を柔軟に調整する自動マルチロス適応(ada-segment)を提案する。
エンドツーエンドアーキテクチャにより、ada-segmentはハイパーパラメータを再チューニングすることなく、異なるデータセットに一般化する。
Ada-Segmentは、バニラベースラインからCOCOval分割に2.7%のパノラマ品質(PQ)改善をもたらし、COCOテストデブ分割に最新の48.5%PQ、ADE20Kデータセットに32.9%PQを達成しました。
論文 参考訳(メタデータ) (2020-12-07T11:43:10Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。