論文の概要: PromptReverb: Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching
- arxiv url: http://arxiv.org/abs/2510.22439v2
- Date: Wed, 29 Oct 2025 15:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.382284
- Title: PromptReverb: Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching
- Title(参考訳): PromptReverb:潜在整流流マッチングによるマルチモーダルルームインパルス応答生成
- Authors: Ali Vosoughi, Yongyi Zang, Qihui Yang, Nathan Paek, Randal Leistikow, Chenliang Xu,
- Abstract要約: 室内インパルス応答(RIR)生成は、没入型仮想音響環境を作成する上で重要な課題である。
本稿では,これらの課題に対処する2段階の生成フレームワークであるPromptReverbを紹介する。
本手法は,仮想現実感,建築音響,音響制作における実用的応用を実現する。
- 参考スコア(独自算出の注目度): 28.59278750632839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Room impulse response (RIR) generation remains a critical challenge for creating immersive virtual acoustic environments. Current methods suffer from two fundamental limitations: the scarcity of full-band RIR datasets and the inability of existing models to generate acoustically accurate responses from diverse input modalities. We present PromptReverb, a two-stage generative framework that addresses these challenges. Our approach combines a variational autoencoder that upsamples band-limited RIRs to full-band quality (48 kHz), and a conditional diffusion transformer model based on rectified flow matching that generates RIRs from descriptions in natural language. Empirical evaluation demonstrates that PromptReverb produces RIRs with superior perceptual quality and acoustic accuracy compared to existing methods, achieving 8.8% mean RT60 error compared to -37% for widely used baselines and yielding more realistic room-acoustic parameters. Our method enables practical applications in virtual reality, architectural acoustics, and audio production where flexible, high-quality RIR synthesis is essential.
- Abstract(参考訳): 室内インパルス応答(RIR)生成は、没入型仮想音響環境を作成する上で重要な課題である。
現在の手法には、フルバンドRIRデータセットの不足と、様々な入力モードから音響的に正確な応答を生成する既存モデルの欠如という2つの基本的な制限がある。
本稿では,これらの課題に対処する2段階の生成フレームワークであるPromptReverbを紹介する。
提案手法は,帯域制限付きIRRをフルバンド品質(48kHz)にアップサンプリングする変分オートエンコーダと,自然言語による記述からRIRを生成する修正フローマッチングに基づく条件拡散トランスフォーマモデルを組み合わせたものである。
経験的評価では、PromptReverbは既存の手法に比べて知覚品質と音響精度に優れ、RT60の平均誤差は8.8%であり、広く使われているベースラインでは-37%、室内音響パラメータではよりリアルである。
本手法は, フレキシブルで高品質なRIR合成が不可欠である, 仮想現実, 建築音響, オーディオ制作における実用的応用を実現する。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models [16.92449230293275]
高品質なRIR推定は、仮想マイク、音源のローカライゼーション、拡張現実、データ拡張などのアプリケーションを駆動する。
本研究は, 騒音拡散確率モデル(DDPM)を用いて, 室内の未測定箇所でRIRを推定することの課題に対処する。
論文 参考訳(メタデータ) (2025-04-29T10:52:07Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。