論文の概要: High-Resolution Speech Restoration with Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2409.11145v1
- Date: Tue, 17 Sep 2024 12:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:45:13.800439
- Title: High-Resolution Speech Restoration with Latent Diffusion Model
- Title(参考訳): 潜時拡散モデルを用いた高分解能音声再生
- Authors: Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu,
- Abstract要約: 複数の歪みを扱う生成モデルは、電話の再構成や高周波高調波にしばしば苦労する。
複数の歪みを除去し、音声記録をスタジオ品質に復元する潜在拡散に基づく新しい生成モデルであるHi-ResLDMを提案する。
我々は、GANとCFM(Conditional Flow Matching)コンポーネントを活用する最先端手法に対してHi-ResLDMをベンチマークし、高周波帯域の詳細を再生する際の優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.407232363131534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional speech enhancement methods often oversimplify the task of restoration by focusing on a single type of distortion. Generative models that handle multiple distortions frequently struggle with phone reconstruction and high-frequency harmonics, leading to breathing and gasping artifacts that reduce the intelligibility of reconstructed speech. These models are also computationally demanding, and many solutions are restricted to producing outputs in the wide-band frequency range, which limits their suitability for professional applications. To address these challenges, we propose Hi-ResLDM, a novel generative model based on latent diffusion designed to remove multiple distortions and restore speech recordings to studio quality, sampled at 48kHz. We benchmark Hi-ResLDM against state-of-the-art methods that leverage GAN and Conditional Flow Matching (CFM) components, demonstrating superior performance in regenerating high-frequency-band details. Hi-ResLDM not only excels in non-instrusive metrics but is also consistently preferred in human evaluation and performs competitively on intrusive evaluations, making it ideal for high-resolution speech restoration.
- Abstract(参考訳): 従来の音声強調法は、単一の歪みに着目して復元作業を単純化することが多い。
複数の歪みを処理する生成モデルは、しばしば電話の再構成や高周波ハーモニクスに苦しむため、呼吸やガスのアーチファクトは、再構成された音声の信頼性を低下させる。
これらのモデルもまた計算的に要求され、多くのソリューションは広帯域の周波数範囲で出力を出力することに制限されており、プロのアプリケーションに適合する可能性を制限する。
これらの課題に対処するために,48kHzでサンプリングした複数の歪みを除去し,音声記録をスタジオ品質に復元する潜在拡散に基づく新しい生成モデルHi-ResLDMを提案する。
我々は、GANとCFM(Conditional Flow Matching)コンポーネントを活用する最先端手法に対してHi-ResLDMをベンチマークし、高周波帯域の詳細を再生する際の優れた性能を示す。
Hi-ResLDMは、非侵襲的指標に優れるだけでなく、人間の評価にも一貫して好まれ、侵入的評価に競争力を発揮し、高分解能音声復元に最適である。
関連論文リスト
- MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation [29.620451579580763]
そこで本研究では,MoDiTalkerと呼ばれる,対話型ヘッド生成のための移動距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-28T04:35:42Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models [76.43625653814911]
拡散モデルは、高い試料品質のため、MRIの再生を加速するために人気を博している。
推論時に柔軟にフォワードモデルを組み込んだまま、効果的にリッチなデータプリエントとして機能することができる。
拡散モデル(SMRD)を用いたSUREに基づくMRI再構成を導入し,テスト時の堅牢性を向上する。
論文 参考訳(メタデータ) (2023-10-03T05:05:35Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Low-Complexity Models for Acoustic Scene Classification Based on
Receptive Field Regularization and Frequency Damping [7.0349768355860895]
ニューラルネットワークにおけるパラメータ数を削減するために,よく知られた手法をいくつか検討し,比較する。
我々は、受容場に特定の制約を適用することで、高い性能の低複雑性モデルを実現することができることを示す。
本稿では,モデルのRFを規則化するためのフィルタ減衰手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T16:34:11Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。