論文の概要: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
- arxiv url: http://arxiv.org/abs/2309.05975v1
- Date: Tue, 12 Sep 2023 05:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:21:03.398058
- Title: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
- Title(参考訳): CleanUNet 2: 波形とスペクトログラムに基づくハイブリッド音声認識モデル
- Authors: Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
- Abstract要約: CleanUNet 2は、波形復調器とスペクトル復調器の利点を組み合わせた音声復調モデルである。
CleanUNet 2は、最先端の波形デノイザであるCleanUNet上に構築されており、スペクトルデノイザから予測スペクトルを入力として取り込むことで、そのパフォーマンスをさらに向上する。
- 参考スコア(独自算出の注目度): 41.85743002053901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present CleanUNet 2, a speech denoising model that combines
the advantages of waveform denoiser and spectrogram denoiser and achieves the
best of both worlds. CleanUNet 2 uses a two-stage framework inspired by popular
speech synthesis methods that consist of a waveform model and a spectrogram
model. Specifically, CleanUNet 2 builds upon CleanUNet, the state-of-the-art
waveform denoiser, and further boosts its performance by taking predicted
spectrograms from a spectrogram denoiser as the input. We demonstrate that
CleanUNet 2 outperforms previous methods in terms of various objective and
subjective evaluations.
- Abstract(参考訳): 本研究では,波形デノイザーとスペクトログラムデノイザーの長所を組み合わせた音声デノイジングモデルであるcleanunet 2を提案する。
cleanunet 2は波形モデルとスペクトログラムモデルからなる一般的な音声合成法に触発された2段階のフレームワークを使用している。
具体的には、cleanunet 2は最先端の波形デノイザーであるcleanunetの上に構築され、スペクトログラムデノイザーから予測されたスペクトログラムを入力としてその性能をさらに向上させる。
cleanunet 2は, 様々な客観的評価, 主観評価において, 従来の手法を上回っている。
関連論文リスト
- Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文 参考訳(メタデータ) (2024-10-17T04:06:02Z) - SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-filter Model [31.280358048556444]
本稿では,音源フィルタ機構に基づくSVS(Advanced End-to-end Song Voice Synsynse)システムを提案する。
提案システムは、基本ピッチ(F0)予測器や波形生成デコーダなどの要素も組み込んでいる。
Opencpopデータセットの実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2024-10-16T13:18:45Z) - A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis [3.9940425551415597]
連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。
このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
論文 参考訳(メタデータ) (2024-06-18T00:34:44Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Speech Denoising in the Waveform Domain with Self-Attention [27.84933221217885]
生波形上での因果的発声モデルであるCleanUNetを提案する。
提案モデルは,エンコーダ・デコーダアーキテクチャといくつかの自己アテンションブロックを組み合わせることで,ボトルネック表現を洗練させる。
論文 参考訳(メタデータ) (2022-02-15T23:44:02Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。