論文の概要: A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes
- arxiv url: http://arxiv.org/abs/2202.01487v1
- Date: Thu, 3 Feb 2022 09:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 21:25:39.172513
- Title: A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes
- Title(参考訳): 合成音場評価による最先端音響イベント検出システムのベンチマーク
- Authors: Francesca Ronchini, Romain Serizel
- Abstract要約: 参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
- 参考スコア(独自算出の注目度): 10.512055210540668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a benchmark of submissions to Detection and
Classification Acoustic Scene and Events 2021 Challenge (DCASE) Task 4
representing a sampling of the state-of-the-art in Sound Event Detection task.
The submissions are evaluated according to the two polyphonic sound detection
score scenarios proposed for the DCASE 2021 Challenge Task 4, which allow to
make an analysis on whether submissions are designed to perform fine-grained
temporal segmentation, coarse-grained temporal segmentation, or have been
designed to be polyvalent on the scenarios proposed. We study the solutions
proposed by participants to analyze their robustness to varying level target to
non-target signal-to-noise ratio and to temporal localization of target sound
events. A last experiment is proposed in order to study the impact of
non-target events on systems outputs. Results show that systems adapted to
provide coarse segmentation outputs are more robust to different target to
non-target signal-to-noise ratio and, with the help of specific data
augmentation methods, they are more robust to time localization of the original
event. Results of the last experiment display that systems tend to spuriously
predict short events when non-target events are present. This is particularly
true for systems that are tailored to have a fine segmentation.
- Abstract(参考訳): 本稿では,音響シーンとイベント2021チャレンジ(dcase)タスク4の検出と分類を行うための提案のベンチマークを提案する。
提案手法は,DCASE 2021チャレンジタスク4で提案された2つのポリフォニック・サウンド検出スコア・シナリオに基づいて評価され,提案手法が詳細な時間的セグメンテーション,粗い時間的セグメンテーション,あるいは提案したシナリオに多価であるように設計されているかどうかを解析することができる。
被験者が提案する解は,非目標信号対雑音比に対する各レベル目標に対するロバスト性を分析し,目標音の時間的定位について検討する。
システム出力に対する非目標事象の影響を研究するために,最後の実験を行った。
その結果、粗いセグメンテーション出力に適応したシステムは、ターゲット外の信号-雑音比に対して異なるターゲットに対してより堅牢であり、特定のデータ拡張手法により、元のイベントの時間的局所化に対してより堅牢であることがわかった。
前回の実験の結果、システムは標的外イベントが存在する場合のショートイベントを急激に予測する傾向を示した。
これは、細かなセグメンテーションを持つように設計されたシステムに特に当てはまる。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - The impact of non-target events in synthetic soundscapes for sound event
detection [13.616885869532533]
合成音環境における非ターゲットイベントの影響に着目した。
目標イベントと非目標イベントの信号対雑音比の調整範囲を学習時に拡張すると,音事象検出性能が向上する。
論文 参考訳(メタデータ) (2021-09-28T21:46:19Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。