論文の概要: Improving weakly supervised sound event detection with self-supervised
auxiliary tasks
- arxiv url: http://arxiv.org/abs/2106.06858v1
- Date: Sat, 12 Jun 2021 20:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 14:38:04.489867
- Title: Improving weakly supervised sound event detection with self-supervised
auxiliary tasks
- Title(参考訳): 自己教師付き補助タスクによる弱教師付き音響イベント検出の改善
- Authors: Soham Deshmukh, Bhiksha Raj, Rita Singh
- Abstract要約: 本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
- 参考スコア(独自算出の注目度): 33.427215114252235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multitask and transfer learning has shown to improve the performance of
neural networks in limited data settings, they require pretraining of the model
on large datasets beforehand. In this paper, we focus on improving the
performance of weakly supervised sound event detection in low data and noisy
settings simultaneously without requiring any pretraining task. To that extent,
we propose a shared encoder architecture with sound event detection as a
primary task and an additional secondary decoder for a self-supervised
auxiliary task. We empirically evaluate the proposed framework for weakly
supervised sound event detection on a remix dataset of the DCASE 2019 task 1
acoustic scene data with DCASE 2018 Task 2 sounds event data under 0, 10 and 20
dB SNR. To ensure we retain the localisation information of multiple sound
events, we propose a two-step attention pooling mechanism that provides a
time-frequency localisation of multiple audio events in the clip. The proposed
framework with two-step attention outperforms existing benchmark models by
22.3%, 12.8%, 5.9% on 0, 10 and 20 dB SNR respectively. We carry out an
ablation study to determine the contribution of the auxiliary task and two-step
attention pooling to the SED performance improvement.
- Abstract(参考訳): マルチタスクと転送学習は、限られたデータ設定でニューラルネットワークのパフォーマンスを改善することが示されているが、大きなデータセットで事前にモデルを事前トレーニングする必要がある。
本稿では,事前学習を必要とせず,低データおよび雑音環境下での弱教師付き音声イベント検出の性能向上に焦点をあてる。
そこで本研究では,音響イベント検出を主タスクとする共有エンコーダアーキテクチャと,自己教師付き補助タスクのための追加の二次デコーダを提案する。
本研究は,DCASE 2018 Task 2 の音響シーンデータを 0, 10, 20 dB SNR で再生したリミックスデータセットを用いて,弱教師付き音響イベント検出のための枠組みを実験的に評価した。
複数の音声イベントのローカライズ情報を確実に保持するために,クリップ内の複数の音声イベントの時間周波数ローカライズを提供する2段階のアテンションプーリング機構を提案する。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
本研究は,SED性能向上のための補助課題と2段階の注意プールの貢献を決定するためのアブレーション研究である。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection [34.99472489405047]
本稿では,Wakly Labelled Audioデータから学習するマルチタスク学習フレームワークを提案する。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
提案した全フレームワークは、すべてのSNRで既存のベンチマークモデルを上回っている。
論文 参考訳(メタデータ) (2020-08-17T04:46:25Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。