論文の概要: PeriodNet: A non-autoregressive waveform generation model with a
structure separating periodic and aperiodic components
- arxiv url: http://arxiv.org/abs/2102.07786v1
- Date: Mon, 15 Feb 2021 19:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:48:23.401869
- Title: PeriodNet: A non-autoregressive waveform generation model with a
structure separating periodic and aperiodic components
- Title(参考訳): periodnet:周期成分と非周期成分を分離した非自己回帰波形生成モデル
- Authors: Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko
Nankaku, Keiichi Tokuda
- Abstract要約: 音声波形の周期成分と非周期成分をモデル化するための新しいモデル構造を有する非自己回帰(非ar)波形生成モデルを提案する。
非ar波形生成モデルは、音声波形を並列に生成することができ、音響特徴を条件付けして音声ボコーダとして使用できる。
- 参考スコア(独自算出の注目度): 32.3009716052971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PeriodNet, a non-autoregressive (non-AR) waveform generation model
with a new model structure for modeling periodic and aperiodic components in
speech waveforms. The non-AR waveform generation models can generate speech
waveforms parallelly and can be used as a speech vocoder by conditioning an
acoustic feature. Since a speech waveform contains periodic and aperiodic
components, both components should be appropriately modeled to generate a
high-quality speech waveform. However, it is difficult to decompose the
components from a natural speech waveform in advance. To address this issue, we
propose a parallel model and a series model structure separating periodic and
aperiodic components. The features of our proposed models are that explicit
periodic and aperiodic signals are taken as input, and external
periodic/aperiodic decomposition is not needed in training. Experiments using a
singing voice corpus show that our proposed structure improves the naturalness
of the generated waveform. We also show that the speech waveforms with a pitch
outside of the training data range can be generated with more naturalness.
- Abstract(参考訳): 音声波形の周期成分と非周期成分をモデル化する新しいモデル構造を持つ非自己回帰(非ar)波形生成モデルである periodnet を提案する。
非ar波形生成モデルは、音声波形を並列に生成することができ、音響特徴を条件付けして音声ボコーダとして使用できる。
音声波形は周期成分と周期成分を含むため、両成分を適切にモデル化して高品質な音声波形を生成する必要がある。
しかし,前もって自然な音声波形から成分を分解することは困難である。
そこで本研究では,周期成分と周期成分を分離した並列モデルと系列モデル構造を提案する。
提案モデルの特徴は,明示的な周期的および周期的信号を入力として捉え,トレーニング中に外部の周期的/時間的分解を必要としないことである。
歌声コーパスを用いた実験により,生成波形の自然性を改善することが示唆された。
また、トレーニングデータ範囲外のピッチを持つ音声波形をより自然度で生成できることも示します。
関連論文リスト
- PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。