論文の概要: MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources
- arxiv url: http://arxiv.org/abs/2207.07307v1
- Date: Fri, 15 Jul 2022 06:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 14:57:39.362029
- Title: MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources
- Title(参考訳): MIMO-DoAnet:未知音源数を持つマルチチャネル入力と複数出力DoAネットワーク
- Authors: Haoran Yin, Meng Ge, Yanjie Fu, Gaoyan Zhang, Longbiao Wang, Lei
Zhang, Lin Qiu and Jianwu Dang
- Abstract要約: 近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。
本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
- 参考スコア(独自算出の注目度): 56.41687729076406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural network based Direction of Arrival (DoA) estimation algorithms
have performed well on unknown number of sound sources scenarios. These
algorithms are usually achieved by mapping the multi-channel audio input to the
single output (i.e. overall spatial pseudo-spectrum (SPS) of all sources), that
is called MISO. However, such MISO algorithms strongly depend on empirical
threshold setting and the angle assumption that the angles between the sound
sources are greater than a fixed angle. To address these limitations, we
propose a novel multi-channel input and multiple outputs DoA network called
MIMO-DoAnet. Unlike the general MISO algorithms, MIMO-DoAnet predicts the SPS
coding of each sound source with the help of the informative spatial covariance
matrix. By doing so, the threshold task of detecting the number of sound
sources becomes an easier task of detecting whether there is a sound source in
each output, and the serious interaction between sound sources disappears
during inference stage. Experimental results show that MIMO-DoAnet achieves
relative 18.6% and absolute 13.3%, relative 34.4% and absolute 20.2% F1 score
improvement compared with the MISO baseline system in 3, 4 sources scenes. The
results also demonstrate MIMO-DoAnet alleviates the threshold setting problem
and solves the angle assumption problem effectively.
- Abstract(参考訳): 近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、マルチチャネルオーディオ入力を単一の出力(すなわち、すべてのソースの全体的な空間的擬似スペクトラム(sps))にマッピングすることで実現される。
しかし、そのようなmisoアルゴリズムは、経験的閾値設定と音源間の角度が固定された角度よりも大きいという角度仮定に大きく依存する。
これらの制約に対処するため、MIMO-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案する。
一般的なMIISOアルゴリズムとは異なり、MIMO-DoAnetは情報的空間共分散行列の助けを借りて各音源のSPS符号化を予測する。
これにより、音源数を検出するしきい値タスクは、各出力に音源が存在するかどうかを検出するための容易なタスクとなり、推論段階では音源間の真剣な相互作用が消失する。
実験の結果,misoベースラインシステムと比較すると,mimo-doanetは相対18.6%,絶対13.3%,相対34.4%,絶対20.2%のf1スコア向上を達成した。
また,mimo-doanetが閾値設定問題を緩和し,角度推定問題を効果的に解くことを示した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - BDIS: Bayesian Dense Inverse Searching Method for Real-Time Stereo
Surgical Image Matching [2.990820994368054]
本稿では,一般的なMISタスクに対して,CPUレベルの事前自由ステレオマッチングアルゴリズムを提案する。
手術画像用のシングルコアCPU (i5-9400) を用いて, 640*480の画像に対して平均17Hzを実現する。
MIS のベースライン ELAS よりも近いか高い精度で出力が小さいが、4-5倍高速である。
論文 参考訳(メタデータ) (2022-05-06T10:50:49Z) - Machine Learning Methods for Spectral Efficiency Prediction in Massive
MIMO Systems [0.0]
本研究では,特定のプリコーディング方式のスペクトル効率(SE)値を最短時間で推定する機械学習手法について検討する。
平均パーセンテージ誤差(MAPE)の最も良い結果は、ソートされた特徴よりも勾配が上昇し、線形モデルは予測精度が悪くなることを示す。
そこで本研究では,Quadrigaシミュレータによって生成される幅広いシナリオにおける提案アルゴリズムの実用性について検討する。
論文 参考訳(メタデータ) (2021-12-29T07:03:10Z) - DeepAoANet: Learning Angle of Arrival from Software Defined Radios with
Deep Neural Networks [39.65462454049291]
既存のアルゴリズムは、マルチパスの有無や弱い信号システムで動作している場合、AoA(Angle of Arrival)の解決にはあまり役に立たない。
本稿では,SDRマルチチャネルデータの単一スナップショットからAoAを抽出するディープラーニング手法を提案する。
提案手法は, 衝突信号数の決定に優れた信頼性を示し, 平均絶対AoA誤差を2ドル以下で実現した。
論文 参考訳(メタデータ) (2021-12-01T18:16:13Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。