論文の概要: MB-RIRs: a Synthetic Room Impulse Response Dataset with Frequency-Dependent Absorption Coefficients
- arxiv url: http://arxiv.org/abs/2507.09750v1
- Date: Sun, 13 Jul 2025 19:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.954693
- Title: MB-RIRs: a Synthetic Room Impulse Response Dataset with Frequency-Dependent Absorption Coefficients
- Title(参考訳): MB-RIRs:周波数依存性吸収係数を持つ合成室インパルス応答データセット
- Authors: Enric Gusó, Joanna Luberadzka, Umut Sayin, Xavier Serra,
- Abstract要約: 従来の画像ソース方式(ISM)の靴箱RIR上に3つの機能を実装した。
我々は、各RIRデータセットに対してDeepFilternet3モデルをトレーニングし、実RIRのテストセットの性能を評価する。
- 参考スコア(独自算出の注目度): 7.468132532398651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the effects of four strategies for improving the ecological validity of synthetic room impulse response (RIR) datasets for monoaural Speech Enhancement (SE). We implement three features on top of the traditional image source method-based (ISM) shoebox RIRs: multiband absorption coefficients, source directivity and receiver directivity. We additionally consider mesh-based RIRs from the SoundSpaces dataset. We then train a DeepFilternet3 model for each RIR dataset and evaluate the performance on a test set of real RIRs both objectively and subjectively. We find that RIRs which use frequency-dependent acoustic absorption coefficients (MB-RIRs) can obtain +0.51dB of SDR and a +8.9 MUSHRA score when evaluated on real RIRs. The MB-RIRs dataset is publicly available for free download.
- Abstract(参考訳): 単聴覚音声強調(SE)のための合成室インパルス応答(RIR)データセットの生態学的妥当性を向上させるための4つの戦略の効果について検討した。
我々は,従来のイメージソース方式(ISM)の靴箱RIR上に,マルチバンド吸収係数,ソース指向性,レシーバ指向性という3つの特徴を実装した。
また、SoundSpacesデータセットからのメッシュベースのIRについても検討する。
次に、各RIRデータセットに対してDeepFilternet3モデルをトレーニングし、実RIRのテストセットの性能を客観的かつ主観的に評価する。
その結果,周波数依存性の音響吸収係数(MB-RIR)を用いてSDRの0.51dBと8.9MUSHRAのスコアが得られることがわかった。
MB-RIRsデータセットは、無料でダウンロードできる。
関連論文リスト
- DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models [16.92449230293275]
高品質なRIR推定は、仮想マイク、音源のローカライゼーション、拡張現実、データ拡張などのアプリケーションを駆動する。
本研究は, 騒音拡散確率モデル(DDPM)を用いて, 室内の未測定箇所でRIRを推定することの課題に対処する。
論文 参考訳(メタデータ) (2025-04-29T10:52:07Z) - Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training [34.14967280931229]
本報告では,ICASSP 2025のジェネレーティブデータ拡張ワークショップに提出された室内インパルス応答(RIR)推定システムについて詳述する。
まず,RIRとジオメトリのペアが提供される外部大規模データセット上で,室内形状を条件としたニューラル音場を事前訓練する。
次に、入力データを用いて、ニューラルネットワークを各目標室に適応させる。
タスク1で特定されたソースと受信者のそれぞれについてRIRを予測し、これらのRIRを用いてタスク2における話者距離推定モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-04-19T21:43:56Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。