論文の概要: Blind Signal Dereverberation for Machine Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.00117v1
- Date: Fri, 30 Sep 2022 22:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:43:42.374966
- Title: Blind Signal Dereverberation for Machine Speech Recognition
- Title(参考訳): 機械音声認識のためのブラインド信号の除去
- Authors: Samik Sadhu, Hynek Hermansky
- Abstract要約: 本稿では,録音環境の残響によって音声に生じる畳み込み雑音を除去する手法を提案する。
室内誘起畳み込みを対数スペクトル領域の加算に変換する。
動作中、この正規化ベクトルは、同じ残響条件下で記録された複素音声スペクトルの残響を軽減するために使用される。
- 参考スコア(独自算出の注目度): 17.523798609265377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method to remove unknown convolutive noise introduced to speech
by reverberations of recording environments, utilizing some amount of training
speech data from the reverberant environment, and any available non-reverberant
speech data. Using Fourier transform computed over long temporal windows, which
ideally cover the entire room impulse response, we convert room induced
convolution to additions in the log spectral domain. Next, we compute a
spectral normalization vector from statistics gathered over reverberated as
well as over clean speech in the log spectral domain. During operation, this
normalization vectors are used to alleviate reverberations from complex speech
spectra recorded under the same reverberant conditions . Such dereverberated
complex speech spectra are used to compute complex FDLP-spectrograms for use in
automatic speech recognition.
- Abstract(参考訳): 本稿では,録音環境の残響によって音声に入力される未知の畳み込み雑音を除去し,残響環境からある程度の訓練音声データと非残響音声データを活用する手法を提案する。
室内インパルス応答全体を理想的にカバーする長周期窓上で計算されたフーリエ変換を用いて,対数スペクトル領域の加算に部屋誘起畳み込みを変換する。
次に,残響上およびログスペクトル領域のクリーン音声上で収集した統計値からスペクトル正規化ベクトルを計算する。
動作中、この正規化ベクトルは、同じ残響条件下で記録された複素音声スペクトルの残響を軽減するために使用される。
このような難解な複素音声スペクトルは、自動音声認識に用いる複雑なFDLP-スペクトログラムの計算に使用される。
関連論文リスト
- Speech Diarization and ASR with GMM [0.0]
音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を含む。
ASRは未知の音声波形を対応する書き起こしに変換する。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
論文 参考訳(メタデータ) (2023-07-11T09:25:39Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Single microphone speaker extraction using unified time-frequency
Siamese-Unet [22.224446472612197]
両表現を用いたSiamese-Unetアーキテクチャを提案する。
周波数領域にシームエンコーダを適用し、ノイズスペクトルと基準スペクトルの埋め込みを推定する。
このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)損失をトレーニングする。
論文 参考訳(メタデータ) (2022-03-06T11:45:30Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。