論文の概要: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- arxiv url: http://arxiv.org/abs/2107.13616v1
- Date: Wed, 28 Jul 2021 19:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:43:32.432484
- Title: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- Title(参考訳): 受聴者による音声・環境音のマイラルショット音響イベント検出の提案
- Authors: Piper Wolters, Chris Daw, Brian Hutchinson, Lauren Phillips
- Abstract要約: 本稿では,領域提案とPerceiverアーキテクチャを用いた音声イベント検出手法を提案する。
数ショットの音声イベント検出に適したベンチマークデータセットが欠如しているため、2つの新しいエピソードなレアな音声イベントデータセットを生成して評価する。
- 参考スコア(独自算出の注目度): 2.1989764549743476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many important applications for detecting and localizing specific
sound events within long, untrimmed documents including keyword spotting,
medical observation, and bioacoustic monitoring for conservation. Deep learning
techniques often set the state-of-the-art for these tasks. However, for some
types of events, there is insufficient labeled data to train deep learning
models. In this paper, we propose novel approaches to few-shot sound event
detection utilizing region proposals and the Perceiver architecture, which is
capable of accurately localizing sound events with very few examples of each
class of interest. Motivated by a lack of suitable benchmark datasets for
few-shot audio event detection, we generate and evaluate on two novel episodic
rare sound event datasets: one using clips of celebrity speech as the sound
event, and the other using environmental sounds. Our highest performing
proposed few-shot approaches achieve 0.575 and 0.672 F1-score, respectively,
with 5-shot 5-way tasks on these two datasets. These represent absolute
improvements of 0.200 and 0.234 over strong proposal-free few-shot sound event
detection baselines.
- Abstract(参考訳): キーワードスポッティング, 医療観察, 生物音響モニタリングなど, 長い未編集文書の中で特定の音事象を検出し, 局所化するための多くの重要な応用がある。
ディープラーニングのテクニックはしばしば、これらのタスクの最先端を定めている。
しかし、ある種のイベントでは、ディープラーニングモデルをトレーニングするラベル付きデータが不十分である。
本稿では,音のイベントを正確に局所化できる領域提案と知覚器アーキテクチャを用いて,音のイベント検出のための新しい手法を提案する。
数発の音声イベント検出に適したベンチマークデータセットが欠如していることから,有名人の音声のクリップを音声イベントとして用い,環境音を用いて2つの新しいエピソードなレアな音声イベントデータセットを生成し,評価する。
提案手法は0.575および0.672 f1-scoreをそれぞれ達成し,これら2つのデータセット上で5ショット5ウェイタスクを実現する。
これらは、強いプロポーザルのない数発の音声イベント検出ベースラインよりも 0.200 と 0.234 の絶対的な改善を示している。
関連論文リスト
- Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。