論文の概要: Extending GCC-PHAT using Shift Equivariant Neural Networks
- arxiv url: http://arxiv.org/abs/2208.04654v1
- Date: Tue, 9 Aug 2022 10:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 13:19:56.075098
- Title: Extending GCC-PHAT using Shift Equivariant Neural Networks
- Title(参考訳): シフト同変ニューラルネットワークによるGCC-PHATの拡張
- Authors: Axel Berg, Mark O'Connor, Kalle {\AA}str\"om, Magnus Oskarsson
- Abstract要約: 位相変換(GCC-PHAT)と一般化された相互相関に基づく手法が話者定位に広く採用されている。
本稿では、シフト同変ニューラルネットワークを用いて受信信号をフィルタリングするGCC-PHATの拡張手法を提案する。
本モデルでは,GCC-PHATの誤差を常に低減し,正確な時間遅延回復を保証している。
- 参考スコア(独自算出の注目度): 17.70159660438739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker localization using microphone arrays depends on accurate time delay
estimation techniques. For decades, methods based on the generalized cross
correlation with phase transform (GCC-PHAT) have been widely adopted for this
purpose. Recently, the GCC-PHAT has also been used to provide input features to
neural networks in order to remove the effects of noise and reverberation, but
at the cost of losing theoretical guarantees in noise-free conditions. We
propose a novel approach to extending the GCC-PHAT, where the received signals
are filtered using a shift equivariant neural network that preserves the timing
information contained in the signals. By extensive experiments we show that our
model consistently reduces the error of the GCC-PHAT in adverse environments,
with guarantees of exact time delay recovery in ideal conditions.
- Abstract(参考訳): マイクロホンアレイを用いた話者定位は正確な時間遅延推定手法に依存する。
何十年もの間、位相変換(gcc-phat)と一般化された相互相関に基づく手法が広く採用されてきた。
近年、GCC-PHATは、ノイズや残響の影響を取り除くためにニューラルネットワークに入力機能を提供するためにも使われてきたが、ノイズのない条件における理論的保証を失うコストがかかる。
本稿では,GCC-PHATを拡張し,信号に含まれるタイミング情報を保持するシフト同変ニューラルネットワークを用いて受信信号をフィルタリングする手法を提案する。
広範な実験により,本モデルは理想条件下での正確な遅延回復を保証しつつ,逆環境におけるgcc-phatの誤差を一貫して低減することを示した。
関連論文リスト
- Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines [46.2770645198924]
フィードバック遅延ネットワーク(FDN)のパラメータを求める新しい手法を提案する。
提案手法は、訓練可能な遅延線を持つ微分可能なFDNの実装を含む。
提案手法は,所望の音響特性と密に一致できる時間不変周波数独立FDNが得られることを示す。
論文 参考訳(メタデータ) (2024-03-29T10:48:32Z) - Deep Learning-Based Frequency Offset Estimation [7.143765507026541]
残差ネットワーク(ResNet)を用いて信号の特徴を学習し抽出することで,CFO推定におけるディープラーニングの利用について述べる。
従来のCFO推定法と比較して,提案手法は様々なシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-08T13:56:22Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Blind Coherent Preamble Detection via Neural Networks [2.2063018784238984]
ニューラルネットワーク(NN)シークエンス検出器とタイミング先進推定器を提案する。
NNによるプリアンブル検出のプロセス全体を置き換えるものではない。
本稿では,通信路効果を補うために,検出器内の信号を組み合わせたテキストブロードコヒーレントにのみNNを用いることを提案する。
論文 参考訳(メタデータ) (2021-09-30T09:53:49Z) - Real-time gravitational-wave science with neural posterior estimation [64.67121167063696]
ディープラーニングを用いた高速重力波パラメータ推定のための前例のない精度を示す。
LIGO-Virgo Gravitational-Wave Transient Catalogから8つの重力波事象を解析した。
標準推論符号と非常に密接な定量的な一致を見いだすが、推定時間がO(day)から1イベントあたり1分に短縮される。
論文 参考訳(メタデータ) (2021-06-23T18:00:05Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。