論文の概要: Efficient and Microphone-Fault-Tolerant 3D Sound Source Localization
- arxiv url: http://arxiv.org/abs/2505.20961v1
- Date: Tue, 27 May 2025 09:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.558266
- Title: Efficient and Microphone-Fault-Tolerant 3D Sound Source Localization
- Title(参考訳): マイクロホン・フォールトトレラント3次元音源定位
- Authors: Yiyuan Yang, Shitong Xu, Niki Trigoni, Andrew Markham,
- Abstract要約: 本稿では,スパース・クロスアテンション,事前学習,適応的信号コヒーレンス・メトリクスを用いた新しい3D SSLフレームワークを提案する。
このフレームワークは、信頼できない、あるいは未知のマイクロフォン位置入力に対してフォールトトレラントであり、実際のシナリオで適用可能であることを保証している。
- 参考スコア(独自算出の注目度): 34.67934887761352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound source localization (SSL) is a critical technology for determining the position of sound sources in complex environments. However, existing methods face challenges such as high computational costs and precise calibration requirements, limiting their deployment in dynamic or resource-constrained environments. This paper introduces a novel 3D SSL framework, which uses sparse cross-attention, pretraining, and adaptive signal coherence metrics, to achieve accurate and computationally efficient localization with fewer input microphones. The framework is also fault-tolerant to unreliable or even unknown microphone position inputs, ensuring its applicability in real-world scenarios. Preliminary experiments demonstrate its scalability for multi-source localization without requiring additional hardware. This work advances SSL by balancing the model's performance and efficiency and improving its robustness for real-world scenarios.
- Abstract(参考訳): 音源定位(SSL)は複雑な環境における音源の位置を決定するための重要な技術である。
しかし、既存の手法では高い計算コストや正確なキャリブレーション要件といった課題に直面し、動的環境や資源制約のある環境への展開を制限している。
本稿では,入力マイクロホンの少ない精度で高精度なローカライゼーションを実現するために,スパース・クロスアテンション,事前学習,適応信号コヒーレンス・メトリクスを用いた新しい3D SSLフレームワークを提案する。
このフレームワークは、信頼できない、あるいは未知のマイクロフォン位置入力に対してフォールトトレラントであり、実際のシナリオで適用可能であることを保証する。
予備実験では、追加のハードウェアを必要としないマルチソースローカライゼーションのスケーラビリティを実証している。
この作業は、モデルのパフォーマンスと効率のバランスを保ち、現実のシナリオに対する堅牢性を改善することでSSLを向上する。
関連論文リスト
- Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning [5.967661928760498]
キーワードスポッティング(KWS)はスマートデバイスのキーコンポーネントであり、効率的で直感的なオーディオインタラクションを可能にする。
KWSシステムは実環境下での性能劣化に悩まされることが多い。
そこで本研究では,KWS分類に用いる事前学習ニューラルネットワークの連続雑音適応に対する低計算手法を提案する。
論文 参考訳(メタデータ) (2025-05-14T11:39:47Z) - LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization [8.296768815428441]
本稿では,視覚,ラジオ,および音声に基づくローカライゼーションアルゴリズムのユニークな比較分析と評価を行う。
我々は、最近発表されたLund University Vision, Radio, and Audio (LuViRA)データセットを用いて、前述のセンサーの最初のベースラインを作成します。
屋内のローカライゼーションタスクに各センサを使用する際の課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-09-06T12:57:00Z) - Position tracking of a varying number of sound sources with sliding
permutation invariant training [19.873949136858354]
深層学習音源定位モデルのための新しいトレーニング戦略を提案する。
これは推定位置と基準位置の最適関係の平均2乗誤差に基づいている。
フレームワイドのローカライズ精度を損なうことなく、アイデンティティスイッチを最小化する。
論文 参考訳(メタデータ) (2022-10-26T07:54:47Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Semi-supervised source localization in reverberant environments with
deep generative modeling [25.085177610870666]
残響環境における音源定位に対する半監督的アプローチを提案する。
このアプローチは深い生成モデルに基づいている。
VAE-SSL は SRP-PHAT と完全教師付き CNN の両方より優れていることがわかった。
論文 参考訳(メタデータ) (2021-01-26T08:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。