論文の概要: Speech enhancement with frequency domain auto-regressive modeling
- arxiv url: http://arxiv.org/abs/2309.13537v1
- Date: Sun, 24 Sep 2023 03:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:13:02.485564
- Title: Speech enhancement with frequency domain auto-regressive modeling
- Title(参考訳): 周波数領域自己回帰モデルによる音声強調
- Authors: Anurenjan Purushothaman, Debottam Dutta, Rohit Kumar and Sriram
Ganapathy
- Abstract要約: 遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
- 参考スコア(独自算出の注目度): 34.55703785405481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech applications in far-field real world settings often deal with signals
that are corrupted by reverberation. The task of dereverberation constitutes an
important step to improve the audible quality and to reduce the error rates in
applications like automatic speech recognition (ASR). We propose a unified
framework of speech dereverberation for improving the speech quality and the
ASR performance using the approach of envelope-carrier decomposition provided
by an autoregressive (AR) model. The AR model is applied in the frequency
domain of the sub-band speech signals to separate the envelope and carrier
parts. A novel neural architecture based on dual path long short term memory
(DPLSTM) model is proposed, which jointly enhances the sub-band envelope and
carrier components. The dereverberated envelope-carrier signals are modulated
and the sub-band signals are synthesized to reconstruct the audio signal back.
The DPLSTM model for dereverberation of envelope and carrier components also
allows the joint learning of the network weights for the down stream ASR task.
In the ASR tasks on the REVERB challenge dataset as well as on the VOiCES
dataset, we illustrate that the joint learning of speech dereverberation
network and the E2E ASR model yields significant performance improvements over
the baseline ASR system trained on log-mel spectrogram as well as other
benchmarks for dereverberation (average relative improvements of 10-24% over
the baseline system). The speech quality improvements, evaluated using
subjective listening tests, further highlight the improved quality of the
reconstructed audio.
- Abstract(参考訳): 遠方界における音声応用は、残響によって劣化する信号を扱うことが多い。
この課題は、音声認識(ASR)などのアプリケーションにおいて、可聴性の向上と誤り率の低減のために重要なステップとなる。
本稿では,自己回帰(ar)モデルを用いたエンベロープ・キャリア分解のアプローチを用いて,音声品質とasr性能を改善するための音声残響の統一的枠組みを提案する。
サブバンド音声信号の周波数領域にarモデルを適用し、エンベロープ部とキャリア部を分離する。
サブバンドエンベロープとキャリアコンポーネントを協調的に強化する2経路長短期メモリ(DPLSTM)モデルに基づくニューラルアーキテクチャを提案する。
残響封筒キャリア信号を変調し、サブバンド信号を合成してオーディオ信号を再構成する。
エンベロープとキャリアコンポーネントの除去のためのDPLSTMモデルは、ダウンストリームASRタスクのためのネットワークウェイトを共同学習することを可能にする。
VOiCESデータセットと同様にREVERBチャレンジデータセット上のASRタスクでは、音声のデバーベレーションネットワークとE2E ASRモデルの共同学習が、ログメル分光法で訓練されたベースラインASRシステムと、他のデバーベレーションのベンチマーク(ベースラインシステムに対して平均10-24%の相対的な改善)に対して、大幅な性能改善をもたらすことを示した。
主観的聴力テストを用いて評価した音声品質改善は,復元音声の質向上をさらに強調する。
関連論文リスト
- ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic
Control Using Multi-Objective Learning [7.216270043333772]
音声認識能力の向上とASRの精度向上を目的として,音声認識指向音声強調(ROSE)フレームワークを提案する。
実世界の収集コーパスに基づく無線音声エコーを除去するために,エンコーダデコーダに基づくU-Netフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。