論文の概要: Latent Acoustic Mapping for Direction of Arrival Estimation: A Self-Supervised Approach
- arxiv url: http://arxiv.org/abs/2507.07066v1
- Date: Tue, 08 Jul 2025 03:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.709213
- Title: Latent Acoustic Mapping for Direction of Arrival Estimation: A Self-Supervised Approach
- Title(参考訳): 位置推定方向の潜時音響マッピング:自己監督的アプローチ
- Authors: Adrian S. Roman, Iran R. Roman, Juan P. Bello,
- Abstract要約: 本稿では,従来の手法の解釈可能性と,ディープラーニング手法の適応性と効率性を橋渡しする自己教師型フレームワークであるLatent Acoustic Mapping (LAM) モデルを紹介する。
LAMは高解像度の音響マップを生成し、様々な音響条件に適応し、異なるマイクロホンアレイ間で効率的に動作する。
LAMの音響マップは、教師付きモデルの効果的な機能として機能し、DoAEの精度をさらに向上し、適応的で高性能な音像定位システムの実現の可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic mapping techniques have long been used in spatial audio processing for direction of arrival estimation (DoAE). Traditional beamforming methods for acoustic mapping, while interpretable, often rely on iterative solvers that can be computationally intensive and sensitive to acoustic variability. On the other hand, recent supervised deep learning approaches offer feedforward speed and robustness but require large labeled datasets and lack interpretability. Despite their strengths, both methods struggle to consistently generalize across diverse acoustic setups and array configurations, limiting their broader applicability. We introduce the Latent Acoustic Mapping (LAM) model, a self-supervised framework that bridges the interpretability of traditional methods with the adaptability and efficiency of deep learning methods. LAM generates high-resolution acoustic maps, adapts to varying acoustic conditions, and operates efficiently across different microphone arrays. We assess its robustness on DoAE using the LOCATA and STARSS benchmarks. LAM achieves comparable or superior localization performance to existing supervised methods. Additionally, we show that LAM's acoustic maps can serve as effective features for supervised models, further enhancing DoAE accuracy and underscoring its potential to advance adaptive, high-performance sound localization systems.
- Abstract(参考訳): 音響マッピング技術は、到着方向推定(DoAE)のための空間オーディオ処理に長い間使われてきた。
従来の音響マッピングのビームフォーミング法は解釈可能であるが、しばしば計算集約的で音響変動に敏感な反復解法に依存している。
一方、最近の教師付きディープラーニングアプローチは、フィードフォワードのスピードと堅牢性を提供するが、大きなラベル付きデータセットを必要とし、解釈性に欠ける。
その強みにもかかわらず、どちらの手法も様々な音響設定や配列構成を一貫して一般化し、適用範囲を制限している。
本稿では,従来の手法の解釈可能性と,ディープラーニング手法の適応性と効率性を橋渡しする自己教師型フレームワークであるLatent Acoustic Mapping (LAM) モデルを紹介する。
LAMは高解像度の音響マップを生成し、様々な音響条件に適応し、異なるマイクロホンアレイ間で効率的に動作する。
LOCATAとSTARSSベンチマークを用いてDoAEのロバスト性を評価する。
LAMは既存の教師付き手法に匹敵する、あるいは優れたローカライゼーション性能を達成している。
さらに, LAMの音響マップは, 教師付きモデルに有効な機能として機能し, さらにDoAEの精度を高め, 適応型, 高性能な音像定位システムの実現の可能性を示す。
関連論文リスト
- Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning [57.91994916297646]
構造的階層的な音波材料は、複数の周波数範囲にわたるエラストダイナミック波と振動の有望なチューニング性を引き起こしている。
本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。
提案手法は,階層型設計空間における新しい領域の探索を柔軟かつ効率的に行う手法である。
論文 参考訳(メタデータ) (2024-08-15T21:35:06Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Acoustic Structure Inverse Design and Optimization Using Deep Learning [7.566801065167986]
本研究では,ディープラーニングに基づく音響構造設計手法を提案する。
提案手法の有効性を実験的に実証した。
我々の手法はより効率的で、普遍的で、自動化されており、幅広い応用が期待できる。
論文 参考訳(メタデータ) (2021-01-29T10:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。