Fugu-MT 論文翻訳(概要): CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram

論文の概要: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram

arxiv url: http://arxiv.org/abs/2309.05975v1
Date: Tue, 12 Sep 2023 05:55:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 14:21:03.398058
Title: CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram
Title（参考訳）: CleanUNet 2: 波形とスペクトログラムに基づくハイブリッド音声認識モデル
Authors: Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
Abstract要約: CleanUNet 2は、波形復調器とスペクトル復調器の利点を組み合わせた音声復調モデルである。 CleanUNet 2は、最先端の波形デノイザであるCleanUNet上に構築されており、スペクトルデノイザから予測スペクトルを入力として取り込むことで、そのパフォーマンスをさらに向上する。
参考スコア（独自算出の注目度）: 41.85743002053901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present CleanUNet 2, a speech denoising model that combines the advantages of waveform denoiser and spectrogram denoiser and achieves the best of both worlds. CleanUNet 2 uses a two-stage framework inspired by popular speech synthesis methods that consist of a waveform model and a spectrogram model. Specifically, CleanUNet 2 builds upon CleanUNet, the state-of-the-art waveform denoiser, and further boosts its performance by taking predicted spectrograms from a spectrogram denoiser as the input. We demonstrate that CleanUNet 2 outperforms previous methods in terms of various objective and subjective evaluations.
Abstract（参考訳）: 本研究では,波形デノイザーとスペクトログラムデノイザーの長所を組み合わせた音声デノイジングモデルであるcleanunet 2を提案する。 cleanunet 2は波形モデルとスペクトログラムモデルからなる一般的な音声合成法に触発された2段階のフレームワークを使用している。具体的には、cleanunet 2は最先端の波形デノイザーであるcleanunetの上に構築され、スペクトログラムデノイザーから予測されたスペクトログラムを入力としてその性能をさらに向上させる。 cleanunet 2は, 様々な客観的評価, 主観評価において, 従来の手法を上回っている。

関連論文リスト

StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。 Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文参考訳（メタデータ） (2025-09-26T05:23:31Z)
SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2025-06-26T17:07:45Z)
Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文参考訳（メタデータ） (2024-10-17T04:06:02Z)
SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-filter Model [31.280358048556444]
本稿では,音源フィルタ機構に基づくSVS(Advanced End-to-end Song Voice Synsynse)システムを提案する。提案システムは、基本ピッチ(F0)予測器や波形生成デコーダなどの要素も組み込んでいる。 Opencpopデータセットの実験により,提案モデルの有効性が実証された。
論文参考訳（メタデータ） (2024-10-16T13:18:45Z)
A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis [3.9940425551415597]
連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
論文参考訳（メタデータ） (2024-06-18T00:34:44Z)
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文参考訳（メタデータ） (2023-10-02T17:42:22Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Speech Denoising in the Waveform Domain with Self-Attention [27.84933221217885]
生波形上での因果的発声モデルであるCleanUNetを提案する。提案モデルは,エンコーダ・デコーダアーキテクチャといくつかの自己アテンションブロックを組み合わせることで,ボトルネック表現を洗練させる。
論文参考訳（メタデータ） (2022-02-15T23:44:02Z)
WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文参考訳（メタデータ） (2021-06-17T17:09:21Z)
Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文参考訳（メタデータ） (2020-07-23T18:47:36Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。