論文の概要: Dual input neural networks for positional sound source localization
- arxiv url: http://arxiv.org/abs/2308.04169v1
- Date: Tue, 8 Aug 2023 09:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:14:21.633308
- Title: Dual input neural networks for positional sound source localization
- Title(参考訳): 位置音源定位のための2重入力ニューラルネットワーク
- Authors: Eric Grinstein, Vincent W. Neo and Patrick A. Naylor
- Abstract要約: 本稿では、これらの2つのデータ型をニューラルネットワークでモデル化するための、単純かつ効果的な方法として、Dual Input Neural Networks(DI-NN)を紹介する。
難易度と現実性の異なるシナリオに基づいて提案したDI-NNをトレーニングし、評価し、代替アーキテクチャと比較する。
以上の結果から,DI-NNはLS法よりも5倍,CRNNより2倍低い位置推定誤差を達成できることがわかった。
- 参考スコア(独自算出の注目度): 19.07039703121673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many signal processing applications, metadata may be advantageously used
in conjunction with a high dimensional signal to produce a desired output. In
the case of classical Sound Source Localization (SSL) algorithms, information
from a high dimensional, multichannel audio signals received by many
distributed microphones is combined with information describing acoustic
properties of the scene, such as the microphones' coordinates in space, to
estimate the position of a sound source. We introduce Dual Input Neural
Networks (DI-NNs) as a simple and effective way to model these two data types
in a neural network. We train and evaluate our proposed DI-NN on scenarios of
varying difficulty and realism and compare it against an alternative
architecture, a classical Least-Squares (LS) method as well as a classical
Convolutional Recurrent Neural Network (CRNN). Our results show that the DI-NN
significantly outperforms the baselines, achieving a five times lower
localization error than the LS method and two times lower than the CRNN in a
test dataset of real recordings.
- Abstract(参考訳): 多くの信号処理アプリケーションでは、メタデータを高次元信号と組み合わせて所望の出力を生成するのに有利に使用できる。
従来のサウンドソースローカライゼーション(SSL)アルゴリズムでは、多くの分散マイクロホンから受信される高次元のマルチチャンネルオーディオ信号から得られる情報と、空間内のマイクロホンの座標などのシーンの音響特性を記述する情報を組み合わせて、音源の位置を推定する。
本稿では,これら2つのデータ型をニューラルネットワークでモデル化するための簡易かつ効果的な手法として,dual input neural network (di-nns)を導入する。
提案したDI-NNを,難易度やリアリズムの異なるシナリオで訓練・評価し,従来のLast-Squares(LS)法や,従来の畳み込みリカレントニューラルネットワーク(CRNN)法と比較する。
その結果、実記録の試験データセットにおいて、di-nnがベースラインを著しく上回り、ls法より5倍低いローカライズエラーとなり、crnnより2倍低い値を示した。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Acoustic-Net: A Novel Neural Network for Sound Localization and
Quantification [28.670240455952317]
アコースティックネットと呼ばれる新しいニューラルネットワークが提案され、音源の特定と定量化が可能である。
実験により,提案手法は音源予測の精度と計算速度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-03-31T12:20:09Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - SNR-Based Features and Diverse Training Data for Robust DNN-Based Speech
Enhancement [21.346342164530967]
本研究では,(1)トレーニングデータのサイズと多様性,(2)異なるネットワークアーキテクチャ,(3)選択した特徴に関する一般化を解析する。
実験結果と, t-distributed neighbor embedded (t-SNE) を用いた解析により, 提案したSNR-NAT特徴が不明瞭な雑音に対して頑健かつレベルに依存しない結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-04-07T16:09:54Z) - Centimeter-Level Indoor Localization using Channel State Information
with Recurrent Neural Networks [12.193558591962754]
本稿では,線形アンテナから収集した実CSIデータを用いて,センチメートルレベルの屋内位置推定を行うニューラルネットワーク手法を提案する。
チャネル応答の振幅または相関行列を入力として使用することにより、データサイズを大幅に削減し、ノイズを抑制することができる。
また、リカレントニューラルネットワーク(RNN)と信号雑音比(SNR)情報によるユーザ動作軌跡の整合性を利用して、推定精度をさらに向上する。
論文 参考訳(メタデータ) (2020-02-04T17:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。