論文の概要: DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation
- arxiv url: http://arxiv.org/abs/2310.01381v3
- Date: Sun, 10 Mar 2024 22:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:11:00.761788
- Title: DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation
- Title(参考訳): DiffAR:生音声波形生成のための拡散自己回帰モデル
- Authors: Roi Benita, Michael Elad, Joseph Keshet
- Abstract要約: 本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
- 参考スコア(独自算出の注目度): 25.968115316199246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently been shown to be relevant for high-quality
speech generation. Most work has been focused on generating spectrograms, and
as such, they further require a subsequent model to convert the spectrogram to
a waveform (i.e., a vocoder). This work proposes a diffusion probabilistic
end-to-end model for generating a raw speech waveform. The proposed model is
autoregressive, generating overlapping frames sequentially, where each frame is
conditioned on a portion of the previously generated one. Hence, our model can
effectively synthesize an unlimited speech duration while preserving
high-fidelity synthesis and temporal coherence. We implemented the proposed
model for unconditional and conditional speech generation, where the latter can
be driven by an input sequence of phonemes, amplitudes, and pitch values.
Working on the waveform directly has some empirical advantages. Specifically,
it allows the creation of local acoustic behaviors, like vocal fry, which makes
the overall waveform sounds more natural. Furthermore, the proposed diffusion
model is stochastic and not deterministic; therefore, each inference generates
a slightly different waveform variation, enabling abundance of valid
realizations. Experiments show that the proposed model generates speech with
superior quality compared with other state-of-the-art neural speech generation
systems.
- Abstract(参考訳): 拡散モデルは近年,高品質な音声生成に関係があることが示されている。
ほとんどの研究はスペクトログラムの生成に焦点が当てられており、それ故に、スペクトログラムを波形(ボコーダ)に変換するためのその後のモデルが必要である。
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
提案するモデルは自己回帰的であり、重複するフレームを順次生成し、各フレームが予め生成されたフレームの一部で条件付けされる。
これにより,高忠実度合成と時間的コヒーレンスを保ちながら,音声の持続時間の無制限化を効果的に行うことができる。
提案手法では,音素,振幅,ピッチ値の入力列によって音声を駆動できる非条件・条件付き音声生成モデルを実装した。
波形を直接扱うことには経験的な利点がある。
具体的には、発声フライのような局所的な音波の振る舞いを作成できるので、全体の波形がより自然に聞こえる。
さらに,提案した拡散モデルは確率的であり決定的ではないため,各推論はわずかに異なる波形変化を発生させ,有効な実現が可能となる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して高品質な音声を生成することが示された。
関連論文リスト
- PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - PeriodNet: A non-autoregressive waveform generation model with a
structure separating periodic and aperiodic components [32.3009716052971]
音声波形の周期成分と非周期成分をモデル化するための新しいモデル構造を有する非自己回帰(非ar)波形生成モデルを提案する。
非ar波形生成モデルは、音声波形を並列に生成することができ、音響特徴を条件付けして音声ボコーダとして使用できる。
論文 参考訳(メタデータ) (2021-02-15T19:00:08Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。