論文の概要: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- arxiv url: http://arxiv.org/abs/2107.13616v1
- Date: Wed, 28 Jul 2021 19:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:43:32.432484
- Title: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- Title(参考訳): 受聴者による音声・環境音のマイラルショット音響イベント検出の提案
- Authors: Piper Wolters, Chris Daw, Brian Hutchinson, Lauren Phillips
- Abstract要約: 本稿では,領域提案とPerceiverアーキテクチャを用いた音声イベント検出手法を提案する。
数ショットの音声イベント検出に適したベンチマークデータセットが欠如しているため、2つの新しいエピソードなレアな音声イベントデータセットを生成して評価する。
- 参考スコア(独自算出の注目度): 2.1989764549743476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many important applications for detecting and localizing specific
sound events within long, untrimmed documents including keyword spotting,
medical observation, and bioacoustic monitoring for conservation. Deep learning
techniques often set the state-of-the-art for these tasks. However, for some
types of events, there is insufficient labeled data to train deep learning
models. In this paper, we propose novel approaches to few-shot sound event
detection utilizing region proposals and the Perceiver architecture, which is
capable of accurately localizing sound events with very few examples of each
class of interest. Motivated by a lack of suitable benchmark datasets for
few-shot audio event detection, we generate and evaluate on two novel episodic
rare sound event datasets: one using clips of celebrity speech as the sound
event, and the other using environmental sounds. Our highest performing
proposed few-shot approaches achieve 0.575 and 0.672 F1-score, respectively,
with 5-shot 5-way tasks on these two datasets. These represent absolute
improvements of 0.200 and 0.234 over strong proposal-free few-shot sound event
detection baselines.
- Abstract(参考訳): キーワードスポッティング, 医療観察, 生物音響モニタリングなど, 長い未編集文書の中で特定の音事象を検出し, 局所化するための多くの重要な応用がある。
ディープラーニングのテクニックはしばしば、これらのタスクの最先端を定めている。
しかし、ある種のイベントでは、ディープラーニングモデルをトレーニングするラベル付きデータが不十分である。
本稿では,音のイベントを正確に局所化できる領域提案と知覚器アーキテクチャを用いて,音のイベント検出のための新しい手法を提案する。
数発の音声イベント検出に適したベンチマークデータセットが欠如していることから,有名人の音声のクリップを音声イベントとして用い,環境音を用いて2つの新しいエピソードなレアな音声イベントデータセットを生成し,評価する。
提案手法は0.575および0.672 f1-scoreをそれぞれ達成し,これら2つのデータセット上で5ショット5ウェイタスクを実現する。
これらは、強いプロポーザルのない数発の音声イベント検出ベースラインよりも 0.200 と 0.234 の絶対的な改善を示している。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Multitask frame-level learning for few-shot sound event detection [46.32294691870714]
本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。
本稿では,データ拡張のためのリニアタイミングマスクであるTimeFilterAugと,マルチタスクフレームレベルのSEDフレームワークを提案する。
提案手法はFスコア63.8%を達成し, バイオ音響事象検出カテゴリーにおける第1位を確保した。
論文 参考訳(メタデータ) (2024-03-17T05:00:40Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。