論文の概要: Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features
- arxiv url: http://arxiv.org/abs/2411.03172v1
- Date: Tue, 05 Nov 2024 15:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:04.879717
- Title: Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features
- Title(参考訳): 分光空間共分散特性を用いたサブバンド音響パラメータのブラインド推定
- Authors: Hanyu Meng, Jeroen Breebaart, Jeremy Stoddard, Vidhyasaharan Sethu, Eliathamby Ambikairajah,
- Abstract要約: 10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
- 参考スコア(独自算出の注目度): 10.480691005356967
- License:
- Abstract: Estimating frequency-varying acoustic parameters is essential for enhancing immersive perception in realistic spatial audio creation. In this paper, we propose a unified framework that blindly estimates reverberation time (T60), direct-to-reverberant ratio (DRR), and clarity (C50) across 10 frequency bands using first-order Ambisonics (FOA) speech recordings as inputs. The proposed framework utilizes a novel feature named Spectro-Spatial Covariance Vector (SSCV), efficiently representing temporal, spectral as well as spatial information of the FOA signal. Our models significantly outperform existing single-channel methods with only spectral information, reducing estimation errors by more than half for all three acoustic parameters. Additionally, we introduce FOA-Conv3D, a novel back-end network for effectively utilising the SSCV feature with a 3D convolutional encoder. FOA-Conv3D outperforms the convolutional neural network (CNN) and recurrent convolutional neural network (CRNN) backends, achieving lower estimation errors and accounting for a higher proportion of variance (PoV) for all 3 acoustic parameters.
- Abstract(参考訳): 実空間音声生成における没入感を高めるためには,周波数変動音響パラメータの推定が不可欠である。
本稿では,各周波数帯における残響時間(T60),直接残響率(DRR),明瞭度(C50)を,第1次アンビニクス(FOA)音声記録を入力として盲目的に推定する統合フレームワークを提案する。
提案フレームワークは,時間,スペクトル,およびFOA信号の空間情報を効率的に表現する,SSCV(Spectro-Spatial Covariance Vector)と呼ばれる新しい特徴を利用する。
提案手法はスペクトル情報のみを用いて既存の単一チャネル法よりも優れており、3つの音響パラメータすべてに対して推定誤差を半分以上低減する。
さらに,3D畳み込みエンコーダを用いたSSCV機能を効果的に活用するための新しいバックエンドネットワークFOA-Conv3Dを紹介する。
FOA-Conv3Dは畳み込みニューラルネットワーク(CNN)と繰り返し畳み込みニューラルネットワーク(CRNN)バックエンドを上回り、より低い推定誤差を達成し、3つの音響パラメータすべてに対して高い分散率(PoV)を考慮する。
関連論文リスト
- Blind Acoustic Room Parameter Estimation Using Phase Features [4.473249957074495]
本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-13T20:05:41Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization [4.096808965934516]
そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。
本モデルでは, 角距離1.29度, 平均角誤差1e-3を全方位で達成する。
論文 参考訳(メタデータ) (2022-07-08T14:27:52Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。