論文の概要: Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection
- arxiv url: http://arxiv.org/abs/2008.07085v2
- Date: Thu, 29 Oct 2020 18:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:27:22.781586
- Title: Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection
- Title(参考訳): 弱ラベル音響イベント検出のためのマルチタスク学習
- Authors: Soham Deshmukh, Bhiksha Raj, Rita Singh
- Abstract要約: 本稿では,Wakly Labelled Audioデータから学習するマルチタスク学習フレームワークを提案する。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
提案した全フレームワークは、すべてのSNRで既存のベンチマークモデルを上回っている。
- 参考スコア(独自算出の注目度): 34.99472489405047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Labelled learning has garnered lot of attention in recent years due to
its potential to scale Sound Event Detection (SED) and is formulated as
Multiple Instance Learning (MIL) problem. This paper proposes a Multi-Task
Learning (MTL) framework for learning from Weakly Labelled Audio data which
encompasses the traditional MIL setup. To show the utility of proposed
framework, we use the input TimeFrequency representation (T-F) reconstruction
as the auxiliary task. We show that the chosen auxiliary task de-noises
internal T-F representation and improves SED performance under noisy
recordings. Our second contribution is introducing two step Attention Pooling
mechanism. By having 2-steps in attention mechanism, the network retains better
T-F level information without compromising SED performance. The visualisation
of first step and second step attention weights helps in localising the
audio-event in T-F domain. For evaluating the proposed framework, we remix the
DCASE 2019 task 1 acoustic scene data with DCASE 2018 Task 2 sounds event data
under 0, 10 and 20 db SNR resulting in a multi-class Weakly labelled SED
problem. The proposed total framework outperforms existing benchmark models
over all SNRs, specifically 22.3 %, 12.8 %, 5.9 % improvement over benchmark
model on 0, 10 and 20 dB SNR respectively. We carry out ablation study to
determine the contribution of each auxiliary task and 2-step Attention Pooling
to the SED performance improvement. The code is publicly released
- Abstract(参考訳): 近年,音事象検出 (SED) の規模が拡大し,MIL (Multiple Instance Learning) 問題として定式化され,難解な遅延学習が注目されている。
本稿では,従来のMIL設定を含むWeakly Labelled Audioデータから学習するマルチタスク学習(MTL)フレームワークを提案する。
提案手法の実用性を示すため,入力時間周波数表現(T-F)を補助タスクとして用いる。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
第2の貢献は,2段階のアテンションプール機構の導入です。
2段階の注意機構を持つことにより、SED性能を損なうことなく、より優れたT-Fレベル情報を保持する。
第1ステップと第2ステップの注意重みの可視化は、T-Fドメインにおけるオーディオイベントのローカライズに役立つ。
提案フレームワークを評価するために,dcase 2019タスク1の音響シーンデータを,dcase 2018タスク2のイベントデータを0,10,20dbのsnr以下でリミックスすることで,マルチクラス弱ラベルsed問題を発生させる。
提案された全フレームワークは、既存のベンチマークモデル、特に0, 10, 20 dB SNRのベンチマークモデルよりも22.3 %, 12.8 %, 5.9% 改善されている。
補助課題と2段階の注意プーリングのsed性能向上への寄与を判定するためにアブレーション研究を行った。
コードは公開されています
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。