論文の概要: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- arxiv url: http://arxiv.org/abs/2107.13616v2
- Date: Sat, 23 Dec 2023 18:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:38:02.709945
- Title: Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers
- Title(参考訳): 受聴者による音声・環境音のマイラルショット音響イベント検出の提案
- Authors: Piper Wolters, Logan Sizemore, Chris Daw, Brian Hutchinson, Lauren
Phillips
- Abstract要約: 本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
- 参考スコア(独自算出の注目度): 0.7776497736451751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications involve detecting and localizing specific sound events
within long, untrimmed documents, including keyword spotting, medical
observation, and bioacoustic monitoring for conservation. Deep learning
techniques often set the state-of-the-art for these tasks. However, for some
types of events, there is insufficient labeled data to train such models. In
this paper, we propose a region proposal-based approach to few-shot sound event
detection utilizing the Perceiver architecture. Motivated by a lack of suitable
benchmark datasets, we generate two new few-shot sound event localization
datasets: "Vox-CASE," using clips of celebrity speech as the sound event, and
"ESC-CASE," using environmental sound events. Our highest performing proposed
few-shot approaches achieve 0.483 and 0.418 F1-score, respectively, with 5-shot
5-way tasks on these two datasets. These represent relative improvements of
72.5% and 11.2% over strong proposal-free few-shot sound event detection
baselines.
- Abstract(参考訳): 多くの応用は、キーワードスポッティング、医療観察、保存のための生体音響モニタリングなど、長い未編集の文書内で特定の音イベントを検出し、位置決めすることを含む。
ディープラーニングのテクニックはしばしば、これらのタスクの最先端を定めている。
しかし、ある種のイベントでは、そのようなモデルをトレーニングするラベル付きデータが不十分である。
本稿では,Perceiver アーキテクチャを用いた少数ショット音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットの欠如に動機づけられて,新たな2つの音声イベントローカライズデータセット,すなわち,有名人の音声クリップを音声イベントとして用いた"vox-case"と,環境音イベントを用いた"esc-case"を生成する。
提案手法は0.483と0.418 f1-scoreをそれぞれ達成し,これら2つのデータセット上で5ショット5ウェイタスクを実行する。
これらは72.5%と11.2%の相対的な改善であり、強力な提案なしの音声イベント検出ベースラインよりも優れている。
関連論文リスト
- Multitask frame-level learning for few-shot sound event detection [46.32294691870714]
本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。
本稿では,データ拡張のためのリニアタイミングマスクであるTimeFilterAugと,マルチタスクフレームレベルのSEDフレームワークを提案する。
提案手法はFスコア63.8%を達成し, バイオ音響事象検出カテゴリーにおける第1位を確保した。
論文 参考訳(メタデータ) (2024-03-17T05:00:40Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。