論文の概要: Sound Event Detection and Localization with Distance Estimation
- arxiv url: http://arxiv.org/abs/2403.11827v1
- Date: Mon, 18 Mar 2024 14:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:10:10.217674
- Title: Sound Event Detection and Localization with Distance Estimation
- Title(参考訳): 距離推定による音事象の検出と位置推定
- Authors: Daniel Aleksander Krause, Archontis Politis, Annamaria Mesaros,
- Abstract要約: 3D SELDは、音事象とその対応方向(DOA)を識別する複合作業である
本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。
以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 4.139846693958608
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sound Event Detection and Localization (SELD) is a combined task of identifying sound events and their corresponding direction-of-arrival (DOA). While this task has numerous applications and has been extensively researched in recent years, it fails to provide full information about the sound source position. In this paper, we overcome this problem by extending the task to Sound Event Detection, Localization with Distance Estimation (3D SELD). We study two ways of integrating distance estimation within the SELD core - a multi-task approach, in which the problem is tackled by a separate model output, and a single-task approach obtained by extending the multi-ACCDOA method to include distance information. We investigate both methods for the Ambisonic and binaural versions of STARSS23: Sony-TAU Realistic Spatial Soundscapes 2023. Moreover, our study involves experiments on the loss function related to the distance estimation part. Our results show that it is possible to perform 3D SELD without any degradation of performance in sound event detection and DOA estimation.
- Abstract(参考訳): 音事象検出と局所化(SELD)は、音事象とその対応方向(DOA)を識別する複合タスクである。
この課題には多くの応用があり、近年広く研究されているが、音源位置に関する完全な情報の提供には失敗している。
本稿では,タスクを音事象検出,距離推定による局所化(3D SELD)に拡張することで,この問題を克服する。
本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。これは,問題を個別のモデル出力で処理するマルチタスクアプローチと,マルチACCDOA法を距離情報を含むように拡張したシングルタスクアプローチである。
STARSS23: Sony-TAU Realistic Space Soundscapes 2023。
さらに,距離推定部に関連する損失関数について実験を行った。
以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。
関連論文リスト
- Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation [21.82296230219289]
選択状態空間モデルであるMambaを利用するSELD-Mambaと呼ばれるSELDのネットワークアーキテクチャを提案する。
本研究では,イベント独立ネットワークV2(EINV2)を基本フレームワークとして採用し,コンバータブロックを双方向のMambaブロックに置き換える。
本研究では,2段階の訓練手法を実装し,第1段階は音事象検出(SED)とDoAの方向推定損失に着目し,第2段階は音源距離推定(SDE)の損失を再導入する。
論文 参考訳(メタデータ) (2024-08-09T13:26:08Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Joint Direction and Proximity Classification of Overlapping Sound Events
from Binaural Audio [7.050270263489538]
本研究の目的は,録音からの関節近接と方向推定のいくつかの方法を検討することである。
音声の限界を考慮し,一組の指向性クラスを得るために,球面を角領域に分割する2つの手法を提案する。
出現源のオンセットとオフセットに関する時間情報を提供する共同タスクに近接および方向推定問題を結合する様々な方法を提案する。
論文 参考訳(メタデータ) (2021-07-26T08:48:46Z) - What Makes Sound Event Localization and Detection Difficult? Insights
from Error Analysis [15.088901748728391]
音事象の定位・検出(SELD)は,音事象の検出と方向推定のタスクを統合することを目的とした,新たな研究課題である。
SELDはノイズ、残響、干渉、ポリフォニー、非定常性といった両方のタスクの課題を継承する。
従来の研究では、残響環境における未知の干渉がSELDシステムの性能に大きな劣化を引き起こすことが示されている。
論文 参考訳(メタデータ) (2021-07-22T06:01:49Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。