論文の概要: DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection
- arxiv url: http://arxiv.org/abs/2106.15190v1
- Date: Tue, 29 Jun 2021 09:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 03:27:06.403623
- Title: DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection
- Title(参考訳): dcase 2021タスク3 : ポリフォニック音響イベントの局在と検出のためのスペクトル時間整合特徴
- Authors: Thi Ngoc Tho Nguyen and Karn Watcharasupat and Ngoc Khanh Nguyen and
Douglas L. Jones and Woon Seng Gan
- Abstract要約: 本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
- 参考スコア(独自算出の注目度): 16.18806719313959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event localization and detection consists of two subtasks which are
sound event detection and direction-of-arrival estimation. While sound event
detection mainly relies on time-frequency patterns to distinguish different
sound classes, direction-of-arrival estimation uses magnitude or phase
differences between microphones to estimate source directions. Therefore, it is
often difficult to jointly train these two subtasks simultaneously. We propose
a novel feature called spatial cue-augmented log-spectrogram (SALSA) with exact
time-frequency mapping between the signal power and the source
direction-of-arrival. The feature includes multichannel log-spectrograms
stacked along with the estimated direct-to-reverberant ratio and a normalized
version of the principal eigenvector of the spatial covariance matrix at each
time-frequency bin on the spectrograms. Experimental results on the DCASE 2021
dataset for sound event localization and detection with directional
interference showed that the deep learning-based models trained on this new
feature outperformed the DCASE challenge baseline by a large margin. We
combined several models with slightly different architectures that were trained
on the new feature to further improve the system performances for the DCASE
sound event localization and detection challenge.
- Abstract(参考訳): 音事象の定位と検出は、音事象の検出と方向推定の2つのサブタスクからなる。
音響イベント検出は主に、音のクラスを識別するために時間周波数パターンに依存するが、指向性推定では、音源の方向を推定するためにマイクロホン間の大きさや位相差を用いる。
そのため、これら2つのサブタスクを同時に訓練することはしばしば困難である。
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張ログ分光法(SALSA)を提案する。
この特徴は、推定された残響率と共に積み重ねられたマルチチャネルログスペクトログラムと、スペクトログラム上の各時間周波数ビンにおける空間共分散行列の主固有ベクトルの正規化バージョンを含む。
指向性干渉による音声イベントの定位と検出のためのDCASE 2021データセットの実験結果から,この新機能で訓練されたディープラーニングベースモデルは,DCASEチャレンジベースラインを大きなマージンで上回った。
dcaseサウンドイベントのローカライズと検出チャレンジのシステムパフォーマンスをさらに改善するために、新機能に基づいてトレーニングされたいくつかの異なるアーキテクチャを結合した。
関連論文リスト
- Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。