論文の概要: The impact of non-target events in synthetic soundscapes for sound event
detection
- arxiv url: http://arxiv.org/abs/2109.14061v1
- Date: Tue, 28 Sep 2021 21:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 01:56:14.659341
- Title: The impact of non-target events in synthetic soundscapes for sound event
detection
- Title(参考訳): 音響事象検出のための合成音場における非標的事象の影響
- Authors: Francesca Ronchini, Romain Serizel, Nicolas Turpault, Samuele Cornell
- Abstract要約: 合成音環境における非ターゲットイベントの影響に着目した。
目標イベントと非目標イベントの信号対雑音比の調整範囲を学習時に拡張すると,音事象検出性能が向上する。
- 参考スコア(独自算出の注目度): 13.616885869532533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection and Classification Acoustic Scene and Events Challenge 2021 Task 4
uses a heterogeneous dataset that includes both recorded and synthetic
soundscapes. Until recently only target sound events were considered when
synthesizing the soundscapes. However, recorded soundscapes often contain a
substantial amount of non-target events that may affect the performance. In
this paper, we focus on the impact of these non-target events in the synthetic
soundscapes. Firstly, we investigate to what extent using non-target events
alternatively during the training or validation phase (or none of them) helps
the system to correctly detect target events. Secondly, we analyze to what
extend adjusting the signal-to-noise ratio between target and non-target events
at training improves the sound event detection performance. The results show
that using both target and non-target events for only one of the phases
(validation or training) helps the system to properly detect sound events,
outperforming the baseline (which uses non-target events in both phases). The
paper also reports the results of a preliminary study on evaluating the system
on clips that contain only non-target events. This opens questions for future
work on non-target subset and acoustic similarity between target and non-target
events which might confuse the system.
- Abstract(参考訳): 検出と分類 音響シーンとイベントチャレンジ 2021 タスク4は、記録と合成の両方のサウンドスケープを含む異種データセットを使用する。
近年までサウンドスケープを合成する時のみターゲットとなるサウンドイベントが検討された。
しかし、録音されたサウンドスケープには、パフォーマンスに影響を与える可能性のある大量の非ターゲットイベントが含まれていることが多い。
本稿では,合成音環境におけるこれらの非ターゲット事象の影響に着目した。
まず、トレーニングフェーズや検証フェーズ(あるいはそのどれか)において、ターゲットでないイベントが対象イベントを正しく検出するのに役立つかを検討する。
次に,訓練時の目標と非目標イベントの信号対雑音比の調整が音響イベント検出性能を向上させるかを分析する。
その結果,対象イベントと非対象イベントの両方を1つのフェーズ(検証やトレーニング)のみに使用することで,ベースライン(両方のフェーズで非ターゲットイベントを使用する)よりも優れた音響イベントを適切に検出できることがわかった。
また,非目標イベントのみを含むクリップ上でのシステム評価に関する予備研究の結果について報告する。
これにより、ターゲットでない部分集合と、システムを混乱させる可能性のあるターゲットとターゲットでないイベントとの音響的類似性に関する今後の作業に対する疑問が開かれる。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Avoiding Post-Processing with Event-Based Detection in Biomedical
Signals [69.34035527763916]
学習対象としてイベントを直接扱うイベントベースのモデリングフレームワークを提案する。
イベントベースのモデリング(後処理なし)は、広範囲な後処理を伴うエポックベースのモデリングと同等以上のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-09-22T13:44:13Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。