論文の概要: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
- arxiv url: http://arxiv.org/abs/2309.05975v1
- Date: Tue, 12 Sep 2023 05:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:21:03.398058
- Title: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
- Title(参考訳): CleanUNet 2: 波形とスペクトログラムに基づくハイブリッド音声認識モデル
- Authors: Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
- Abstract要約: CleanUNet 2は、波形復調器とスペクトル復調器の利点を組み合わせた音声復調モデルである。
CleanUNet 2は、最先端の波形デノイザであるCleanUNet上に構築されており、スペクトルデノイザから予測スペクトルを入力として取り込むことで、そのパフォーマンスをさらに向上する。
- 参考スコア(独自算出の注目度): 41.85743002053901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present CleanUNet 2, a speech denoising model that combines
the advantages of waveform denoiser and spectrogram denoiser and achieves the
best of both worlds. CleanUNet 2 uses a two-stage framework inspired by popular
speech synthesis methods that consist of a waveform model and a spectrogram
model. Specifically, CleanUNet 2 builds upon CleanUNet, the state-of-the-art
waveform denoiser, and further boosts its performance by taking predicted
spectrograms from a spectrogram denoiser as the input. We demonstrate that
CleanUNet 2 outperforms previous methods in terms of various objective and
subjective evaluations.
- Abstract(参考訳): 本研究では,波形デノイザーとスペクトログラムデノイザーの長所を組み合わせた音声デノイジングモデルであるcleanunet 2を提案する。
cleanunet 2は波形モデルとスペクトログラムモデルからなる一般的な音声合成法に触発された2段階のフレームワークを使用している。
具体的には、cleanunet 2は最先端の波形デノイザーであるcleanunetの上に構築され、スペクトログラムデノイザーから予測されたスペクトログラムを入力としてその性能をさらに向上させる。
cleanunet 2は, 様々な客観的評価, 主観評価において, 従来の手法を上回っている。
関連論文リスト
- DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - Intelligible Lip-to-Speech Synthesis with Speech Units [32.65865343643458]
サイレントな唇運動ビデオから理解不能な音声を合成するための新しいL2Sフレームワークを提案する。
本稿では,音声単位を参照して,ぼやけやうるさいメル・スペクトログラムからでも明瞭な波形を生成できるマルチインプット・ボコーダを提案する。
論文 参考訳(メタデータ) (2023-05-31T07:17:32Z) - Speech Denoising in the Waveform Domain with Self-Attention [27.84933221217885]
生波形上での因果的発声モデルであるCleanUNetを提案する。
提案モデルは,エンコーダ・デコーダアーキテクチャといくつかの自己アテンションブロックを組み合わせることで,ボトルネック表現を洗練させる。
論文 参考訳(メタデータ) (2022-02-15T23:44:02Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。