論文の概要: Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2006.09006v2
- Date: Wed, 16 Dec 2020 19:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:39:53.558548
- Title: Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks
- Title(参考訳): SRP-PHATと3次元畳み込みニューラルネットワークを用いたロバスト音源追跡
- Authors: David Diaz-Guerra, Antonio Miguel and Jose R. Beltran
- Abstract要約: 本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
- 参考スコア(独自算出の注目度): 10.089520556398574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new single sound source DOA estimation and
tracking system based on the well-known SRP-PHAT algorithm and a
three-dimensional Convolutional Neural Network. It uses SRP-PHAT power maps as
input features of a fully convolutional causal architecture that uses 3D
convolutional layers to accurately perform the tracking of a sound source even
in highly reverberant scenarios where most of the state of the art techniques
fail. Unlike previous methods, since we do not use bidirectional recurrent
layers and all our convolutional layers are causal in the time dimension, our
system is feasible for real-time applications and it provides a new DOA
estimation for each new SRP-PHAT map. To train the model, we introduce a new
procedure to simulate random trajectories as they are needed during the
training, equivalent to an infinite-size dataset with high flexibility to
modify its acoustical conditions such as the reverberation time. We use both
acoustical simulations on a large range of reverberation times and the actual
recordings of the LOCATA dataset to prove the robustness of our system and its
good performance even using low-resolution SRP-PHAT maps.
- Abstract(参考訳): 本稿では,よく知られたSRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果構造(英語版)の入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
従来の手法とは異なり、双方向のリカレント層は使用せず、全ての畳み込み層は時間次元に因果関係にあるため、リアルタイムアプリケーションではシステムは実現可能であり、新しいsrp-phatマップごとに新しいdoa推定を提供する。
そこで本研究では,学習中に無作為な軌跡をシミュレートする新しい手法を提案する。残響時間などの音響条件を変更するための柔軟性の高い無限大データセットに相当する。
残響時間とLOCATAデータセットの実際の記録における音響シミュレーションの両方を用いて,低分解能SRP-PHATマップを用いて,システムの堅牢性と優れた性能を実証する。
関連論文リスト
- KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - ResFields: Residual Neural Fields for Spatiotemporal Signals [61.44420761752655]
ResFieldsは、複雑な時間的信号を効果的に表現するために設計された新しいネットワークのクラスである。
本稿では,ResFieldの特性を包括的に解析し,トレーニング可能なパラメータの数を減らすための行列分解手法を提案する。
スパースRGBDカメラからダイナミックな3Dシーンをキャプチャする効果を示すことで,ResFieldsの実用性を実証する。
論文 参考訳(メタデータ) (2023-09-06T16:59:36Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - WNet: A data-driven dual-domain denoising model for sparse-view computed
tomography with a trainable reconstruction layer [3.832032989515628]
スパース・ビュー・アーティファクト・デノナイズのためのトレーニング可能な再構成層を含むデータ駆動型デュアルドメイン・デノナイズ・モデルWNetを提案する。
我々は2つの臨床的に関連のあるデータセットを用いてネットワークをトレーニングし、その結果を3種類のスパースビューCTと再構成アルゴリズムと比較した。
論文 参考訳(メタデータ) (2022-07-01T13:17:01Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Inferring, Predicting, and Denoising Causal Wave Dynamics [3.9407250051441403]
DISTANA(Distributed Artificial Neural Network Architecture)は、グラフ畳み込みニューラルネットワークである。
DISTANAは、再帰パターンが観測されるので、データストリームを飾るのに非常に適していることを示す。
安定かつ正確なクローズドループ予測を数百の時間ステップで生成する。
論文 参考訳(メタデータ) (2020-09-19T08:33:53Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。