論文の概要: Blind Acoustic Room Parameter Estimation Using Phase Features
- arxiv url: http://arxiv.org/abs/2303.07449v1
- Date: Mon, 13 Mar 2023 20:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:30:17.582041
- Title: Blind Acoustic Room Parameter Estimation Using Phase Features
- Title(参考訳): 位相特徴を用いたブラインド音響室パラメータ推定
- Authors: Christopher Ick, Adib Mehrabi, Wenyu Jin
- Abstract要約: 本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 4.473249957074495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling room acoustics in a field setting involves some degree of blind
parameter estimation from noisy and reverberant audio. Modern approaches
leverage convolutional neural networks (CNNs) in tandem with time-frequency
representation. Using short-time Fourier transforms to develop these
spectrogram-like features has shown promising results, but this method
implicitly discards a significant amount of audio information in the phase
domain. Inspired by recent works in speech enhancement, we propose utilizing
novel phase-related features to extend recent approaches to blindly estimate
the so-called "reverberation fingerprint" parameters, namely, volume and RT60.
The addition of these features is shown to outperform existing methods that
rely solely on magnitude-based spectral features across a wide range of
acoustics spaces. We evaluate the effectiveness of the deployment of these
novel features in both single-parameter and multi-parameter estimation
strategies, using a novel dataset that consists of publicly available room
impulse responses (RIRs), synthesized RIRs, and in-house measurements of real
acoustic spaces.
- Abstract(参考訳): フィールド設定における室内音響のモデル化は、雑音および残響音からある程度のブラインドパラメータ推定を伴う。
現代のアプローチでは、時間周波数表現と接して畳み込みニューラルネットワーク(CNN)を利用する。
これらのスペクトログラムライクな特徴を開発するために短時間フーリエ変換を用いると有望な結果が得られるが、この方法は位相領域でかなりの量の音声情報を暗黙的に破棄する。
音声強調の最近の研究に触発されて,いわゆる「残響指紋」パラメータ,すなわちボリュームとrt60を盲目的に推定するために,新しい位相関連特徴の活用を提案する。
これらの特徴の付加は、幅広い音響空間にわたる等級に基づくスペクトル特徴のみに依存する既存の手法よりも優れていることを示す。
本研究では, 室間インパルス応答(RIR), 合成RIR, 実音響空間の室内計測を含む新しいデータセットを用いて, 単一パラメータおよびマルチパラメータ推定手法におけるこれらの特徴の展開の有効性を評価する。
関連論文リスト
- Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines [46.2770645198924]
フィードバック遅延ネットワーク(FDN)のパラメータを求める新しい手法を提案する。
提案手法は、訓練可能な遅延線を持つ微分可能なFDNの実装を含む。
提案手法は,所望の音響特性と密に一致できる時間不変周波数独立FDNが得られることを示す。
論文 参考訳(メタデータ) (2024-03-29T10:48:32Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Generative adversarial networks with physical sound field priors [6.256923690998173]
本稿では,GANを用いた音場再構築のための深層学習に基づくアプローチを提案する。
提案手法は, 平面波ベースと室内圧力の統計的分布を用いて, 限られた数の測定値から音場を再構成する。
提案手法は, 音場再構成に有望な手法であることを示す。
論文 参考訳(メタデータ) (2023-08-01T10:11:23Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。