論文の概要: Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization
- arxiv url: http://arxiv.org/abs/2508.00307v1
- Date: Fri, 01 Aug 2025 04:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.734891
- Title: Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization
- Title(参考訳): ビームフォーミング360°サウンドマップ:U-Net-Driven Acoustic Source Segmentation and Localization
- Authors: Belman Jahir Rodriguez, Sergio F. Chevtchenko, Marcelo Herrera Martinez, Yeshwant Bethy, Saeed Afshar,
- Abstract要約: 球状セマンティックセグメンテーションタスクとして定式化された360deg音響音源定位のためのU-netモデルを提案する。
私たちのデータセットには、DJI Air 3ドローンの実際のオープンフィールド記録が含まれています。
- 参考スコア(独自算出の注目度): 0.10485739694839666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a U-net model for 360{\deg} acoustic source localization formulated as a spherical semantic segmentation task. Rather than regressing discrete direction-of-arrival (DoA) angles, our model segments beamformed audio maps (azimuth and elevation) into regions of active sound presence. Using delay-and-sum (DAS) beamforming on a custom 24-microphone array, we generate signals aligned with drone GPS telemetry to create binary supervision masks. A modified U-Net, trained on frequency-domain representations of these maps, learns to identify spatially distributed source regions while addressing class imbalance via the Tversky loss. Because the network operates on beamformed energy maps, the approach is inherently array-independent and can adapt to different microphone configurations without retraining from scratch. The segmentation outputs are post-processed by computing centroids over activated regions, enabling robust DoA estimates. Our dataset includes real-world open-field recordings of a DJI Air 3 drone, synchronized with 360{\deg} video and flight logs across multiple dates and locations. Experimental results show that U-net generalizes across environments, providing improved angular precision, offering a new paradigm for dense spatial audio understanding beyond traditional Sound Source Localization (SSL).
- Abstract(参考訳): 球状セマンティックセグメンテーションタスクとして定式化された360{\deg}音響音源定位のためのU-netモデルを提案する。
我々のモデルセグメントは、個別方向(DoA)の角度を遅らせるのではなく、ビームフォーミングされたオーディオマップ(方位と高度)をアクティブな音響存在域に配置する。
カスタム24マイクロフォンアレイ上でのDASビームフォーミングを用いて、ドローンGPSテレメトリに適合した信号を生成し、バイナリ監視マスクを作成する。
これらのマップの周波数領域表現に基づいて訓練された改良されたU-Netは、Tversky損失を介してクラス不均衡に対処しながら、空間的に分散したソース領域を特定することを学ぶ。
ネットワークはビームフォーミングされたエネルギーマップで動作するため、アプローチは本質的に配列に依存しず、スクラッチから再トレーニングすることなく異なるマイク構成に適応することができる。
セグメンテーション出力は、活性化領域上のセントロイドの計算によって後処理され、ロバストなDoA推定を可能にする。
私たちのデータセットには、DJI Air 3ドローンの実際のオープンフィールド記録が含まれています。
実験の結果,U-netは環境全体にわたって一般化され,角精度が向上し,従来のサウンドソースローカライゼーション(SSL)を超える高密度空間音声理解のための新たなパラダイムが提供されることがわかった。
関連論文リスト
- Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文 参考訳(メタデータ) (2025-08-04T02:41:09Z) - RadioFormer: A Multiple-Granularity Radio Map Estimation Transformer with 1\textpertenthousand Spatial Sampling [60.267226205350596]
電波マップ推定は、電磁スペクトル量の密度の高い表現を生成することを目的としている。
空間スパース観測によって生じる制約に対処する新しい多重粒度変換器であるRadioFormerを提案する。
また,RadioFormerは,最小計算コストを維持しつつ,無線マップ推定における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-27T08:44:41Z) - Constructing Indoor Region-based Radio Map without Location Labels [18.34037687586167]
本稿では、位置ラベルを使わずに受信信号強度(RSS)測定から地域ベースの無線マップを開発する。
構築は、屋内エリアの各地域を正確に1度訪問するデバイスから、盲目的に収集されたRSS測定データに基づいて行われる。
提案手法は, 重み付きセントロイド局在化(WCL)ベースラインと比較して, 領域の局所化誤差を約50%削減する。
論文 参考訳(メタデータ) (2023-08-31T14:27:36Z) - Multi-Microphone Speaker Separation by Spatial Regions [9.156939957189504]
残響マルチマイクロホンの音源分離の課題について考察する。
我々は、最先端ネットワークの修正版を用いたデータ駆動型アプローチを提案する。
両トレーニング手法は,各領域をネットワーク出力に固定したマッピングを行い,同等の性能を実現し,ネットワークが空間情報を利用することを示す。
論文 参考訳(メタデータ) (2023-03-13T14:11:34Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Three-Way Deep Neural Network for Radio Frequency Map Generation and
Source Localization [67.93423427193055]
空間、時間、周波数領域にわたる無線スペクトルのモニタリングは、5Gと6G以上の通信技術において重要な特徴となる。
本稿では,空間領域全体にわたる不規則分散計測を補間するGAN(Generative Adversarial Network)機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:25:10Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。