論文の概要: FAST-RIR: Fast neural diffuse room impulse response generator
- arxiv url: http://arxiv.org/abs/2110.04057v1
- Date: Thu, 7 Oct 2021 05:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 14:39:47.263813
- Title: FAST-RIR: Fast neural diffuse room impulse response generator
- Title(参考訳): FAST-RIR:高速神経拡散室インパルス応答ジェネレータ
- Authors: Anton Ratnarajah, Shi-Xiong Zhang, Meng Yu, Zhenyu Tang, Dinesh
Manocha, Dong Yu
- Abstract要約: 本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
- 参考スコア(独自算出の注目度): 81.96114823691343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural-network-based fast diffuse room impulse response
generator (FAST-RIR) for generating room impulse responses (RIRs) for a given
acoustic environment. Our FAST-RIR takes rectangular room dimensions, listener
and speaker positions, and reverberation time as inputs and generates specular
and diffuse reflections for a given acoustic environment. Our FAST-RIR is
capable of generating RIRs for a given input reverberation time with an average
error of 0.02s. We evaluate our generated RIRs in automatic speech recognition
(ASR) applications using Google Speech API, Microsoft Speech API, and Kaldi
tools. We show that our proposed FAST-RIR with batch size 1 is 400 times faster
than a state-of-the-art diffuse acoustic simulator (DAS) on a CPU and gives
similar performance to DAS in ASR experiments. Our FAST-RIR is 12 times faster
than an existing GPU-based RIR generator (gpuRIR). We show that our FAST-RIR
outperforms gpuRIR by 2.5% in an AMI far-field ASR benchmark.
- Abstract(参考訳): 本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、長方形の室内寸法、リスナーとスピーカの位置、残響時間を入力として取り、所定の音響環境に対してスペクトルおよび拡散反射を生成する。
我々のFAST-RIRは平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
我々は、Google Speech API、Microsoft Speech API、Kaldiツールを用いて、自動音声認識(ASR)アプリケーションで生成されたIRを評価した。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)よりも400倍高速であり,ASR実験におけるDASと同等の性能を示した。
FAST-RIRは既存のGPUベースのRIRジェネレータ(gpuRIR)の12倍高速です。
FAST-RIR は AMI far-field ASR ベンチマークで gpuRIR を 2.5% 上回っている。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D
Scenes [56.946057850725545]
メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。
任意のトポロジ(2K-3M三角形)で入力三角メッシュを処理できる。
我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で地上の真実と一致していることを示す。
論文 参考訳(メタデータ) (2022-05-18T23:50:34Z) - StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation [6.824692201913681]
StoRIRは、機械学習アプリケーションにおける音声データ拡張専用の室内インパルス応答生成手法である。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲のメトリクスにおいて,ディープラーニングモデルによりより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-17T11:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。