論文の概要: GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.15516v1
- Date: Fri, 9 Feb 2024 12:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:16:15.576129
- Title: GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model
- Title(参考訳): GLA-Grad:グリフィンリム拡張波形生成拡散モデル
- Authors: Haocheng Liu (IP Paris, LTCI, IDS, S2A), Teysir Baoueb (IP Paris,
LTCI, IDS, S2A), Mathieu Fontaine (IP Paris, LTCI, IDS, S2A), Jonathan Le
Roux (MERL), Gael Richard (IP Paris, LTCI, IDS, S2A)
- Abstract要約: 本稿では,Griffin-Limアルゴリズム(GLA)のような位相回復アルゴリズムを正規拡散過程の各ステップで導入するGLA-Gradを提案する。
提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are receiving a growing interest for a variety of signal
generation tasks such as speech or music synthesis. WaveGrad, for example, is a
successful diffusion model that conditionally uses the mel spectrogram to guide
a diffusion process for the generation of high-fidelity audio. However, such
models face important challenges concerning the noise diffusion process for
training and inference, and they have difficulty generating high-quality speech
for speakers that were not seen during training. With the aim of minimizing the
conditioning error and increasing the efficiency of the noise diffusion
process, we propose in this paper a new scheme called GLA-Grad, which consists
in introducing a phase recovery algorithm such as the Griffin-Lim algorithm
(GLA) at each step of the regular diffusion process. Furthermore, it can be
directly applied to an already-trained waveform generation model, without
additional training or fine-tuning. We show that our algorithm outperforms
state-of-the-art diffusion models for speech generation, especially when
generating speech for a previously unseen target speaker.
- Abstract(参考訳): 拡散モデルは、音声や音楽合成などの様々な信号生成タスクへの関心が高まっている。
例えばwavegradは、melスペクトログラムを条件付きで高忠実度オーディオ生成のための拡散プロセスをガイドする拡散モデルとして成功した。
しかし、そのようなモデルは、訓練と推論のためのノイズ拡散過程に関する重要な課題に直面しており、訓練中に見られなかった話者のための高品質な音声を生成することは困難である。
本稿では,条件付き誤差を最小化し,ノイズ拡散過程の効率を高めることを目的として,正規拡散過程の各ステップでグリフィン・リムアルゴリズム(GLA)のような位相回復アルゴリズムを導入するGLA-Gradという新しい手法を提案する。
さらに、トレーニングや微調整なしに、既に訓練済みの波形生成モデルに直接適用することができる。
提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Investigating the Design Space of Diffusion Models for Speech
Enhancement [16.13996677489119]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル装置の適切な選択により,一般的な拡散型音声強調システムよりも知覚的指標で優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。
提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文 参考訳(メタデータ) (2021-10-10T10:46:31Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。