論文の概要: Towards Improved Room Impulse Response Estimation for Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.04473v1
- Date: Tue, 8 Nov 2022 00:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:40:30.928761
- Title: Towards Improved Room Impulse Response Estimation for Speech Recognition
- Title(参考訳): 音声認識のための室内インパルス応答推定の改善
- Authors: Anton Ratnarajah, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Pablo
Hoffmann, Dinesh Manocha, Paul Calamia
- Abstract要約: まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に,残響音声からRIR特徴を符号化し,その符号化された特徴からRIRを構成するGANアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 53.04440557465013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to characterize and improve the performance of blind room impulse
response (RIR) estimation systems in the context of a downstream application
scenario, far-field automatic speech recognition (ASR). We first draw the
connection between improved RIR estimation and improved ASR performance, as a
means of evaluating neural RIR estimators. We then propose a GAN-based
architecture that encodes RIR features from reverberant speech and constructs
an RIR from the encoded features, and uses a novel energy decay relief loss to
optimize for capturing energy-based properties of the input reverberant speech.
We show that our model outperforms the state-of-the-art baselines on acoustic
benchmarks (by 72% on the energy decay relief and 22% on an early-reflection
energy metric), as well as in an ASR evaluation task (by 6.9% in word error
rate).
- Abstract(参考訳): 本稿では,下流アプリケーションシナリオであるfar-field automatic speech recognition (asr)の文脈において,ブラインドルームインパルス応答(rir)推定システムの性能を特徴付け,向上させる。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からrir特徴を符号化し、符号化特徴からrirを構成するganに基づくアーキテクチャを提案し、入力残響音声のエネルギーベース特性を最適化するために新しいエネルギー減衰緩和損失を用いる。
本モデルでは,ASR評価タスク(単語誤り率6.9%)において,音響ベンチマーク(エネルギー崩壊緩和率72%,早期反射エネルギー測定率22%)において,最先端のベースラインよりも優れていた。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained
ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。
本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-03-31T13:32:51Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。