論文の概要: Iterative Sound Source Localization for Unknown Number of Sources
- arxiv url: http://arxiv.org/abs/2206.12273v1
- Date: Fri, 24 Jun 2022 13:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:58:02.794234
- Title: Iterative Sound Source Localization for Unknown Number of Sources
- Title(参考訳): 未知数の音源に対する反復音源定位
- Authors: Yanjie Fu, Meng Ge, Haoran Yin, Xinyuan Qian, Longbiao Wang, Gaoyan
Zhang, Jianwu Dang
- Abstract要約: 終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
- 参考スコア(独自算出の注目度): 57.006589498243336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound source localization aims to seek the direction of arrival (DOA) of all
sound sources from the observed multi-channel audio. For the practical problem
of unknown number of sources, existing localization algorithms attempt to
predict a likelihood-based coding (i.e., spatial spectrum) and employ a
pre-determined threshold to detect the source number and corresponding DOA
value. However, these threshold-based algorithms are not stable since they are
limited by the careful choice of threshold. To address this problem, we propose
an iterative sound source localization approach called ISSL, which can
iteratively extract each source's DOA without threshold until the termination
criterion is met. Unlike threshold-based algorithms, ISSL designs an active
source detector network based on binary classifier to accept residual spatial
spectrum and decide whether to stop the iteration. By doing so, our ISSL can
deal with an arbitrary number of sources, even more than the number of sources
seen during the training stage. The experimental results show that our ISSL
achieves significant performance improvements in both DOA estimation and source
number detection compared with the existing threshold-based algorithms.
- Abstract(参考訳): 音源定位は、観測されたマルチチャンネルオーディオから全ての音源の到着方向(DOA)を求めることを目的としている。
未知のソース数の実用的な問題に対して、既存のローカライゼーションアルゴリズムは、確率ベースの符号化(空間スペクトル)を予測し、あらかじめ決定された閾値を用いてソース数と対応するDOA値を検出する。
しかし、これらのしきい値に基づくアルゴリズムは、しきい値の選択によって制限されるため、安定ではない。
この問題に対処するため, 終端基準を満たすまで各音源のDOAをしきい値なしに繰り返し抽出できる ISSL という反復音源定位手法を提案する。
しきい値に基づくアルゴリズムとは異なり、ISSLはバイナリ分類器に基づくアクティブなソース検出器ネットワークを設計し、残留空間スペクトルを受け入れ、繰り返しを停止するかを決定する。
そうすることで、ISSLは任意の数のソースを扱うことができ、トレーニング段階で見られるソースの数よりもも多いのです。
実験の結果,既存のしきい値に基づくアルゴリズムと比較して,DOA推定とソース数検出の両方において,ISSLは大幅な性能向上を実現していることがわかった。
関連論文リスト
- Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Deep Learning Object Detection Approaches to Source Identification [15.813217907813778]
本稿では,従来の音源識別アルゴリズムを用いて,故障事例を緩和するシステムを提案する。
コントリビューションには、オブジェクト検出問題としてのフレーミングソース識別、スペクトログラムオブジェクト検出データセットの公開、およびデータセット上でトレーニングされたRetinaNetおよびYOLOv5オブジェクト検出モデルの評価が含まれる。
論文 参考訳(メタデータ) (2022-10-27T02:08:46Z) - Position tracking of a varying number of sound sources with sliding
permutation invariant training [19.873949136858354]
深層学習音源定位モデルのための新しいトレーニング戦略を提案する。
これは推定位置と基準位置の最適関係の平均2乗誤差に基づいている。
フレームワイドのローカライズ精度を損なうことなく、アイデンティティスイッチを最小化する。
論文 参考訳(メタデータ) (2022-10-26T07:54:47Z) - MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources [56.41687729076406]
近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。
本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
論文 参考訳(メタデータ) (2022-07-15T06:18:00Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - A Discriminative Technique for Multiple-Source Adaptation [55.5865665284915]
本稿では,マルチソース適応のための新しい識別手法,MSA,問題を提案する。
我々のソリューションは、ソースドメインからのラベルなしデータから容易に正確に推定できる条件付き確率のみを必要とする。
実世界の応用実験により、新しい識別的MSAアルゴリズムは、以前の生成解よりも優れていたことがさらに証明された。
論文 参考訳(メタデータ) (2020-08-25T14:06:15Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Unsupervised Audio Source Separation using Generative Priors [43.35195236159189]
そこで本研究では,個々の音源から学習した生成的事前情報に基づく音源分離手法を提案する。
提案手法では,ソース固有の潜在空間を同時に探索し,構成源を効果的に回収する。
論文 参考訳(メタデータ) (2020-05-28T03:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。