論文の概要: FCN Approach for Dynamically Locating Multiple Speakers
- arxiv url: http://arxiv.org/abs/2008.11845v1
- Date: Wed, 26 Aug 2020 22:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 22:30:38.804595
- Title: FCN Approach for Dynamically Locating Multiple Speakers
- Title(参考訳): 複数話者の動的位置決定のためのFCNアプローチ
- Authors: Hodaya Hammer and Shlomo E. Chazan and Jacob Goldberger and Sharon
Gannot
- Abstract要約: 本稿では,ディープニューラルネットワークを用いたオンラインマルチスピーカーローカライゼーションアルゴリズムを提案する。
完全な畳み込みネットワークは、各TFビンのDOAを推定するために、瞬時空間特徴で訓練される。
高解像度分類により、ネットワークは静的および動的両方の複数の話者を正確にかつ同時にローカライズし、追跡することができる。
- 参考スコア(独自算出の注目度): 32.42971386926153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a deep neural network-based online multi-speaker
localisation algorithm. Following the W-disjoint orthogonality principle in the
spectral domain, each time-frequency (TF) bin is dominated by a single speaker,
and hence by a single direction of arrival (DOA). A fully convolutional network
is trained with instantaneous spatial features to estimate the DOA for each TF
bin. The high resolution classification enables the network to accurately and
simultaneously localize and track multiple speakers, both static and dynamic.
Elaborated experimental study using both simulated and real-life recordings in
static and dynamic scenarios, confirms that the proposed algorithm outperforms
both classic and recent deep-learning-based algorithms.
- Abstract(参考訳): 本稿では,ディープニューラルネットワークを用いたオンラインマルチスピーカーローカライゼーションアルゴリズムを提案する。
スペクトル領域におけるW-解離直交原理に従って、各時間周波数(TF)ビンは単一の話者によって支配され、従って単一の到達方向(DOA)によって支配される。
完全な畳み込みネットワークは、各TFビンのDOAを推定するために、瞬時空間特徴で訓練される。
高解像度分類により、ネットワークは静的および動的両方の複数の話者を正確にかつ同時にローカライズし、追跡することができる。
静的および動的シナリオにおけるシミュレーションと実生活記録の両方を用いた実験により、提案アルゴリズムが古典的および最近のディープラーニングベースのアルゴリズムより優れていることを確認した。
関連論文リスト
- OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural
Architecture Search [79.36688444492405]
once-for-All(OFA)は、異なるリソース制約を持つデバイスのための効率的なアーキテクチャを探索する問題に対処するために設計された、ニューラルネットワーク検索(NAS)フレームワークである。
我々は,探索段階を多目的最適化問題として明示的に考えることにより,効率の追求を一歩進めることを目指している。
論文 参考訳(メタデータ) (2023-03-23T21:30:29Z) - LocalDrop: A Hybrid Regularization for Deep Neural Networks [98.30782118441158]
本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。
フルコネクテッドネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方のための新しい正規化機能は、ローカルラデマチャー複雑さの上限提案に基づいて開発されました。
論文 参考訳(メタデータ) (2021-03-01T03:10:11Z) - Exploiting Multiple Timescales in Hierarchical Echo State Networks [0.0]
エコー状態ネットワーク(ESN)は、線形出力重みのトレーニングのみを必要とする貯水池コンピューティングの強力な形態である。
ここでは,貯水池を2つの小さな貯水池に分割した階層型esnの時間スケールを考察する。
論文 参考訳(メタデータ) (2021-01-11T22:33:17Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks [10.089520556398574]
本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
論文 参考訳(メタデータ) (2020-06-16T09:07:33Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Neural Architecture Search on Acoustic Scene Classification [13.529070650030313]
我々はMobileNetV2にインスパイアされた軽量で高性能なベースラインネットワークを提案する。
提案するベースラインに基づいて構築された動的アーキテクチャ空間を探索する。
実験の結果,検索されたネットワークはASCタスクに適していることがわかった。
論文 参考訳(メタデータ) (2019-12-30T06:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。