論文の概要: Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset
- arxiv url: http://arxiv.org/abs/2102.06455v1
- Date: Fri, 12 Feb 2021 11:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 12:56:37.824511
- Title: Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset
- Title(参考訳): 実空間における深層音場再構成:ISOBEL音場データセットの導入
- Authors: Miklas Str{\o}m Kristoffersen, Martin Bo M{\o}ller, Pablo
Mart\'inez-Nuevo, Jan {\O}stergaard
- Abstract要約: 本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge of loudspeaker responses are useful in a number of applications,
where a sound system is located inside a room that alters the listening
experience depending on position within the room. Acquisition of sound fields
for sound sources located in reverberant rooms can be achieved through labor
intensive measurements of impulse response functions covering the room, or
alternatively by means of reconstruction methods which can potentially require
significantly fewer measurements. This paper extends evaluations of sound field
reconstruction at low frequencies by introducing a dataset with measurements
from four real rooms. The ISOBEL Sound Field dataset is publicly available, and
aims to bridge the gap between synthetic and real-world sound fields in
rectangular rooms. Moreover, the paper advances on a recent deep learning-based
method for sound field reconstruction using a very low number of microphones,
and proposes an approach for modeling both magnitude and phase response in a
U-Net-like neural network architecture. The complex-valued sound field
reconstruction demonstrates that the estimated room transfer functions are of
high enough accuracy to allow for personalized sound zones with contrast ratios
comparable to ideal room transfer functions using 15 microphones below 150 Hz.
- Abstract(参考訳): スピーカ応答の知識は,室内の位置に応じて聴取経験を変化させる室内に音響システムを設置する多くのアプリケーションにおいて有用である。
残響室にある音源に対する音場獲得は、部屋を覆うインパルス応答関数の集中的な測定や、より少ない測定を必要とする可能性のある再構成手法によって達成される。
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
ISOBELサウンドフィールドデータセットは公開されており、長方形の部屋で合成音場と実世界の音場のギャップを埋めることを目指しています。
さらに,超低音量マイクロホンを用いた近年の深層学習に基づく音場再構成法を考案し,u-netライクなニューラルネットワークアーキテクチャにおける音の大きさと位相応答のモデル化手法を提案する。
複素数値音場再構成は,150Hz未満の15マイクロホンを用いて,理想的な室内伝達関数に匹敵するコントラスト比のパーソナライズされた音域を実現するために,推定された室内伝達関数の精度が十分高いことを示す。
関連論文リスト
- HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information [0.42970700836450487]
ユーザの実際の音響環境に関する知識は,環境にシームレスに溶け込む仮想音のレンダリングに不可欠である。
最終出力において,室内パラメータと位置パラメータの両方がどう考慮されるかを示す。
論文 参考訳(メタデータ) (2024-09-23T12:41:31Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Room Transfer Function Reconstruction Using Complex-valued Neural Networks and Irregularly Distributed Microphones [15.396703290586418]
第1室共鳴の周波数範囲における室内伝達関数を推定するために,複素数値ニューラルネットワークを用いる。
複雑な数値のニューラルネットワークが部屋の移動関数を推定するために使われるのは、これが初めてである。
論文 参考訳(メタデータ) (2024-02-01T21:16:40Z) - Reconstruction of Sound Field through Diffusion Models [15.192190218332843]
室内の音場再構築は、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。
室内の音場の大きさを変調周波数域に着目して再構成するデータ駆動生成モデルを提案する。
本研究では,音場(SF-Diff)を拡張領域上に再構築するために訓練された条件付き拡散確率モデル(DDPM)を初めて導入する。
論文 参考訳(メタデータ) (2023-12-14T11:11:26Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。
隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。
Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文 参考訳(メタデータ) (2021-09-23T04:43:58Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Sound field reconstruction in rooms: inpainting meets super-resolution [1.0705399532413618]
音場再構成のためのディープラーニング手法を提案する。
この方法は、シミュレーションデータのみに基づいてトレーニングされた部分的畳み込みを備えたU-netのようなニューラルネットワークに基づいている。
実聴室でのシミュレーションデータと実験検証を併用した実験を行った。
論文 参考訳(メタデータ) (2020-01-30T11:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。