論文の概要: An Experimental Study on Joint Modeling for Sound Event Localization and Detection with Source Distance Estimation
- arxiv url: http://arxiv.org/abs/2501.10755v1
- Date: Sat, 18 Jan 2025 12:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:42.042719
- Title: An Experimental Study on Joint Modeling for Sound Event Localization and Detection with Source Distance Estimation
- Title(参考訳): 音源距離推定による音事象定位と検出の連成モデルに関する実験的研究
- Authors: Yuxuan Dong, Qing Wang, Hengyi Hong, Ya Jiang, Shi Cheng,
- Abstract要約: 3D SELDタスクは、ソース距離推定を統合することで制限に対処する。
本稿では,この課題に対処するための3つのアプローチを提案する。
提案手法は,DCASE 2024 Challenge Task 3において,関節モデリングの有効性を実証した。
- 参考スコア(独自算出の注目度): 3.2637535969755858
- License:
- Abstract: In traditional sound event localization and detection (SELD) tasks, the focus is typically on sound event detection (SED) and direction-of-arrival (DOA) estimation, but they fall short of providing full spatial information about the sound source. The 3D SELD task addresses this limitation by integrating source distance estimation (SDE), allowing for complete spatial localization. We propose three approaches to tackle this challenge: a novel method with independent training and joint prediction, which firstly treats DOA and distance estimation as separate tasks and then combines them to solve 3D SELD; a dual-branch representation with source Cartesian coordinate used for simultaneous DOA and distance estimation; and a three-branch structure that jointly models SED, DOA, and SDE within a unified framework. Our proposed method ranked first in the DCASE 2024 Challenge Task 3, demonstrating the effectiveness of joint modeling for addressing the 3D SELD task. The relevant code for this paper will be open-sourced in the future.
- Abstract(参考訳): 従来の音事象の局所化と検出(SELD)タスクでは、典型的には音事象の検出(SED)と方向推定(DOA)に重点を置いているが、音源に関する完全な空間情報を提供するには至っていない。
3D SELDタスクは、ソース距離推定(SDE)を統合することで、この制限に対処し、完全な空間的ローカライゼーションを可能にする。
本稿では、まず、DOAと距離推定を個別のタスクとして扱い、それらを組み合わせて3D SELDを解く、独立トレーニングと共同予測を備えた新しい手法、同時にDOAと距離推定に使用されるソース・カルテシアン座標を用いた二重ブランチ表現、SED、DOA、SDEを統一フレームワーク内で共同でモデル化する3分岐構造を提案する。
提案手法は,DCASE 2024チャレンジタスク3において,3次元SELDタスクに対処するための共同モデリングの有効性を示した。
この論文の関連コードは、将来的にオープンソース化される予定である。
関連論文リスト
- SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation [21.82296230219289]
選択状態空間モデルであるMambaを利用するSELD-Mambaと呼ばれるSELDのネットワークアーキテクチャを提案する。
本研究では,イベント独立ネットワークV2(EINV2)を基本フレームワークとして採用し,コンバータブロックを双方向のMambaブロックに置き換える。
本研究では,2段階の訓練手法を実装し,第1段階は音事象検出(SED)とDoAの方向推定損失に着目し,第2段階は音源距離推定(SDE)の損失を再導入する。
論文 参考訳(メタデータ) (2024-08-09T13:26:08Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Sound Event Detection and Localization with Distance Estimation [4.139846693958608]
3D SELDは、音事象とその対応方向(DOA)を識別する複合作業である
本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。
以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:34:16Z) - Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose
Reconstruction in a Diffusion Framework [6.669850111205944]
単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程で生じる固有の深さの曖昧さによって重要な課題を提起する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
本稿では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T09:53:03Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。