論文の概要: Continuous Wavelet Vocoder-based Decomposition of Parametric Speech
Waveform Synthesis
- arxiv url: http://arxiv.org/abs/2106.06863v1
- Date: Sat, 12 Jun 2021 20:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 14:04:58.059409
- Title: Continuous Wavelet Vocoder-based Decomposition of Parametric Speech
Waveform Synthesis
- Title(参考訳): 連続ウェーブレットボコーダを用いたパラメトリック音声波形合成の分解
- Authors: Mohammed Salah Al-Radhi, Tam\'as G\'abor Csap\'o, Csaba Zaink\'o,
G\'eza N\'emeth
- Abstract要約: 音声技術システムは、音声波形を合成するためのボコーダアプローチを採用している。
WaveNetは人間の声に近い最高のモデルのひとつです。
- 参考スコア(独自算出の注目度): 2.6572330982240935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, various speech technology systems have adopted the vocoder approach,
a method for synthesizing speech waveform that shows a major role in the
performance of statistical parametric speech synthesis. WaveNet one of the best
models that nearly resembles the human voice, has to generate a waveform in a
time consuming sequential manner with an extremely complex structure of its
neural networks.
- Abstract(参考訳): これまで,様々な音声技術システムがボコーダ方式を採用してきた。これは,統計的パラメトリック音声合成の性能に重要な役割を果たす音声波形を合成する方法である。
WaveNetは人間の声に近い最高のモデルの1つで、ニューラルネットワークの極めて複雑な構造を持つ連続的な方法で波形を生成する必要があります。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - Differentiable Wavetable Synthesis [7.585969077788285]
Differentiable Wavetable Synthesis (DWTS)は、一周期波形の辞書を学習するニューラルオーディオ合成技術である。
10から20の波長で高忠実な音声合成を実現する。
入力音声のほんの数秒で、高品質なピッチシフトなどのオーディオ操作を示す。
論文 参考訳(メタデータ) (2021-11-19T01:42:42Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis [47.30453049606897]
得られたオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
また16kHzから24kHzのサンプリングレートでリスナーが識別でき、WaveRNNはWaveNetに匹敵する品質の出力波形を生成する。
論文 参考訳(メタデータ) (2020-11-10T00:19:04Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。