論文の概要: CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR
- arxiv url: http://arxiv.org/abs/2502.20040v1
- Date: Thu, 27 Feb 2025 12:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:01.393889
- Title: CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR
- Title(参考訳): CleanMel: 音声品質とASRの両方を改善するメルスペクトログラムの強化
- Authors: Nian Shao, Rui Zhou, Pengyu Wang, Xian Li, Ying Fang, Yujie Yang, Xiaofei Li,
- Abstract要約: 単チャンネルメル-スペクトログラムによるデノナイズ・デノベーション・デノベーション・デノベーションネットワークであるCleanMelを提案する。
提案するネットワークは、ノイズと残響のマイクロホン記録を入力として、対応するMel-spectrogramを予測する。
拡張Mel-spectrogramは、ニューラルボコーダで音声波形に変換するか、ASRに直接使用することができる。
- 参考スコア(独自算出の注目度): 36.77663840488492
- License:
- Abstract: In this work, we propose CleanMel, a single-channel Mel-spectrogram denoising and dereverberation network for improving both speech quality and automatic speech recognition (ASR) performance. The proposed network takes as input the noisy and reverberant microphone recording and predicts the corresponding clean Mel-spectrogram. The enhanced Mel-spectrogram can be either transformed to speech waveform with a neural vocoder or directly used for ASR. The proposed network is composed of interleaved cross-band and narrow-band processing in the Mel-frequency domain, for learning the full-band spectral pattern and the narrow-band properties of signals, respectively. Compared to linear-frequency domain or time-domain speech enhancement, the key advantage of Mel-spectrogram enhancement is that Mel-frequency presents speech in a more compact way and thus is easier to learn, which will benefit both speech quality and ASR. Experimental results on four English and one Chinese datasets demonstrate a significant improvement in both speech quality and ASR performance achieved by the proposed model. Code and audio examples of our model are available online in https://audio.westlake.edu.cn/Research/CleanMel.html.
- Abstract(参考訳): 本研究では,音声品質と自動音声認識(ASR)性能を両立させる単一チャネルメル・スペクトログラム・デノベーション・デノベーション・デノベーション・デノベーション・ネットワークであるCleanMelを提案する。
提案するネットワークは、ノイズと残響のマイクロホン記録を入力として、対応するMel-spectrogramを予測する。
拡張Mel-spectrogramは、ニューラルボコーダで音声波形に変換するか、ASRに直接使用することができる。
提案するネットワークは,メル周波数領域におけるクロスバンドおよび狭帯域処理のインターリーブにより構成され,信号のフルバンドスペクトルパターンと狭帯域特性をそれぞれ学習する。
線形周波数領域や時間領域の音声強調と比較して、メルスペクトル強調の鍵となる利点は、メル周波数がよりコンパクトな方法で音声を提示し、学習しやすく、音声品質とASRの両方に恩恵をもたらすことである。
4つの英語データセットと1つの中国語データセットに対する実験結果から,提案モデルにより得られた音声品質とASR性能の両面で有意な改善が示された。
私たちのモデルのコードとオーディオの例は、https://audio.westlake.edu.cn/Research/CleanMel.htmlで公開されている。
関連論文リスト
- A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis [3.9940425551415597]
連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。
このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
論文 参考訳(メタデータ) (2024-06-18T00:34:44Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS [1.8927791081850118]
本稿では、バックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。
このモデルは、WaveRNNデコーダが音声波形を生成するために使用する低分解能メルスペクトル特性を生成する。
論文 参考訳(メタデータ) (2022-06-30T13:29:31Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。