論文の概要: Reconstruction of Sound Field through Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08821v2
- Date: Wed, 21 Feb 2024 16:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:40:24.246472
- Title: Reconstruction of Sound Field through Diffusion Models
- Title(参考訳): 拡散モデルによる音場の再構成
- Authors: Federico Miotello, Luca Comanducci, Mirco Pezzoli, Alberto Bernardini,
Fabio Antonacci and Augusto Sarti
- Abstract要約: 室内の音場再構築は、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。
室内の音場の大きさを変調周波数域に着目して再構成するデータ駆動生成モデルを提案する。
本研究では,音場(SF-Diff)を拡張領域上に再構築するために訓練された条件付き拡散確率モデル(DDPM)を初めて導入する。
- 参考スコア(独自算出の注目度): 15.192190218332843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing the sound field in a room is an important task for several
applications, such as sound control and augmented (AR) or virtual reality (VR).
In this paper, we propose a data-driven generative model for reconstructing the
magnitude of acoustic fields in rooms with a focus on the modal frequency
range. We introduce, for the first time, the use of a conditional Denoising
Diffusion Probabilistic Model (DDPM) trained in order to reconstruct the sound
field (SF-Diff) over an extended domain. The architecture is devised in order
to be conditioned on a set of limited available measurements at different
frequencies and generate the sound field in target, unknown, locations. The
results show that SF-Diff is able to provide accurate reconstructions,
outperforming a state-of-the-art baseline based on kernel interpolation.
- Abstract(参考訳): 室内の音場を再構成することは、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。
本稿では,モーダル周波数範囲に着目して室内の音場の大きさを再現するためのデータ駆動生成モデルを提案する。
本稿では,拡張領域上の音場(sf-diff)を再構成するために訓練された条件付き脱音拡散確率モデル(ddpm)について初めて紹介する。
アーキテクチャは、異なる周波数で利用可能な限られた測定値のセットに条件付けし、ターゲット、未知の場所の音場を生成するように設計されている。
その結果,SF-Diffは,カーネル補間に基づく最先端のベースラインよりも高い精度で,正確な再構築を実現することができた。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Room Transfer Function Reconstruction Using Complex-valued Neural Networks and Irregularly Distributed Microphones [15.396703290586418]
第1室共鳴の周波数範囲における室内伝達関数を推定するために,複素数値ニューラルネットワークを用いる。
複雑な数値のニューラルネットワークが部屋の移動関数を推定するために使われるのは、これが初めてである。
論文 参考訳(メタデータ) (2024-02-01T21:16:40Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Generative adversarial networks with physical sound field priors [6.256923690998173]
本稿では,GANを用いた音場再構築のための深層学習に基づくアプローチを提案する。
提案手法は, 平面波ベースと室内圧力の統計的分布を用いて, 限られた数の測定値から音場を再構成する。
提案手法は, 音場再構成に有望な手法であることを示す。
論文 参考訳(メタデータ) (2023-08-01T10:11:23Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Mean absorption estimation from room impulse responses using virtually
supervised learning [0.0]
本稿では,室内インパルス応答(RIR)のみから平均吸収係数を推定する新しい手法を紹介し,検討する。
この逆問題は、仮想教師付き学習、すなわち、人工ニューラルネットワークを用いたシミュレーションデータセット上の回帰によって暗黙的に学習される。
論文 参考訳(メタデータ) (2021-09-01T14:06:20Z) - Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文 参考訳(メタデータ) (2021-02-12T11:34:18Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。