論文の概要: SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform
- arxiv url: http://arxiv.org/abs/2106.06969v1
- Date: Sun, 13 Jun 2021 11:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:36:48.751542
- Title: SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform
- Title(参考訳): sounddet: 生波形からの多声音のイベント検出と定位
- Authors: Yuhang He, Niki Trigoni, Andrew Markham
- Abstract要約: SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
- 参考スコア(独自算出の注目度): 48.68714598985078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a new framework SoundDet, which is an end-to-end trainable and
light-weight framework, for polyphonic moving sound event detection and
localization. Prior methods typically approach this problem by preprocessing
raw waveform into time-frequency representations, which is more amenable to
process with well-established image processing pipelines. Prior methods also
detect in segment-wise manner, leading to incomplete and partial detections.
SoundDet takes a novel approach and directly consumes the raw, multichannel
waveform and treats the spatio-temporal sound event as a complete
``sound-object" to be detected. Specifically, SoundDet consists of a backbone
neural network and two parallel heads for temporal detection and spatial
localization, respectively. Given the large sampling rate of raw waveform, the
backbone network first learns a set of phase-sensitive and frequency-selective
bank of filters to explicitly retain direction-of-arrival information, whilst
being highly computationally and parametrically efficient than standard 1D/2D
convolution. A dense sound event proposal map is then constructed to handle the
challenges of predicting events with large varying temporal duration.
Accompanying the dense proposal map are a temporal overlapness map and a motion
smoothness map that measure a proposal's confidence to be an event from
temporal detection accuracy and movement consistency perspective. Involving the
two maps guarantees SoundDet to be trained in a spatio-temporally unified
manner. Experimental results on the public DCASE dataset show the advantage of
SoundDet on both segment-based and our newly proposed event-based evaluation
system.
- Abstract(参考訳): 本稿では,多音質移動音のイベント検出と局所化のための,エンドツーエンドのトレーニング可能な軽量フレームワークであるsounddetを提案する。
従来の手法では、生の波形を時間周波数表現に前処理することでこの問題にアプローチしている。
事前の手法はセグメント的にも検出され、不完全かつ部分的な検出に繋がる。
SoundDetは、新しいアプローチを採用し、生のマルチチャネル波形を直接消費し、時空間音イベントを検出対象の完全な ` `sound-object' として扱う。
具体的には、sounddetはバックボーンニューラルネットワークと、時間検出と空間局在のための2つの並列ヘッドで構成される。
生波形のサンプリング率が大きいことから、バックボーンネットワークはまず位相感受性と周波数選択性のあるフィルタバンクの集合を学習し、標準の1D/2D畳み込みよりも計算的かつパラメトリックに効率的である。
次に、時間的変化が大きいイベントを予測する際の課題に対処するため、高密度な音声イベント提案マップを構築する。
密集した提案マップは、時間重なり合いマップと、時間的検出精度と運動整合性の観点から、提案の事象に対する信頼度を測定する動き平滑性マップである。
この2つのマップは、SoundDetを時空間的に統一された方法でトレーニングすることを保証します。
公開DCASEデータセットにおける実験結果から, セグメントベースと新たに提案したイベントベース評価システムにおけるSoundDetの利点が示された。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。