論文の概要: Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines
- arxiv url: http://arxiv.org/abs/2404.00082v4
- Date: Tue, 08 Oct 2024 09:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:25:05.516675
- Title: Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines
- Title(参考訳): データ駆動型室内音響モデル -学習遅延線付き微分フィードバック遅延ネットワーク-
- Authors: Alessandro Ilic Mezza, Riccardo Giampiccolo, Enzo De Sena, Alberto Bernardini,
- Abstract要約: フィードバック遅延ネットワーク(FDN)のパラメータを求める新しい手法を提案する。
提案手法は、訓練可能な遅延線を持つ微分可能なFDNの実装を含む。
提案手法は,所望の音響特性と密に一致できる時間不変周波数独立FDNが得られることを示す。
- 参考スコア(独自算出の注目度): 46.2770645198924
- License:
- Abstract: Over the past few decades, extensive research has been devoted to the design of artificial reverberation algorithms aimed at emulating the room acoustics of physical environments. Despite significant advancements, automatic parameter tuning of delay-network models remains an open challenge. We introduce a novel method for finding the parameters of a Feedback Delay Network (FDN) such that its output renders target attributes of a measured room impulse response. The proposed approach involves the implementation of a differentiable FDN with trainable delay lines, which, for the first time, allows us to simultaneously learn each and every delay-network parameter via backpropagation. The iterative optimization process seeks to minimize a perceptually-motivated time-domain loss function incorporating differentiable terms accounting for energy decay and echo density. Through experimental validation, we show that the proposed method yields time-invariant frequency-independent FDNs capable of closely matching the desired acoustical characteristics, and outperforms existing methods based on genetic algorithms and analytical FDN design.
- Abstract(参考訳): 過去数十年にわたり、物理環境の室内音響をエミュレートすることを目的とした人工残響アルゴリズムの設計に、広範囲にわたる研究が費やされてきた。
大幅な進歩にもかかわらず、遅延ネットワークモデルの自動パラメータチューニングは未解決の課題である。
本稿では,FDN(Feedback Delay Network)のパラメータを,その出力が測定室のインパルス応答のターゲット属性を描画する新しい手法を提案する。
提案手法は、トレーニング可能な遅延線付き微分可能FDNの実装を伴い、バックプロパゲーションにより、各遅延ネットワークパラメータを同時に学習することができる。
反復最適化プロセスは、エネルギー減衰とエコー密度を考慮した微分可能な項を含む知覚的に動機付けられた時間領域損失関数を最小化する。
実験により,提案手法は所望の音響特性と密に一致できる時間不変周波数非依存FDNを生成し,遺伝的アルゴリズムと解析的FDN設計に基づく既存手法よりも優れていることを示す。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic
System Identification with Application to Audio Processing [4.599180419117645]
解釈可能性(Interpretability)は、モデルを一般化し、その限界を明らかにする能力を理解するのに役立ちます。
本稿では,動的システムモデリングのための因果解釈可能な深部構造を提案する。
提案モデルは,時間周波数領域におけるシステムモデリングによる調和解析を利用する。
論文 参考訳(メタデータ) (2023-10-10T21:32:15Z) - Blind Acoustic Room Parameter Estimation Using Phase Features [4.473249957074495]
本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-13T20:05:41Z) - Extending GCC-PHAT using Shift Equivariant Neural Networks [17.70159660438739]
位相変換(GCC-PHAT)と一般化された相互相関に基づく手法が話者定位に広く採用されている。
本稿では、シフト同変ニューラルネットワークを用いて受信信号をフィルタリングするGCC-PHATの拡張手法を提案する。
本モデルでは,GCC-PHATの誤差を常に低減し,正確な時間遅延回復を保証している。
論文 参考訳(メタデータ) (2022-08-09T10:31:10Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。