論文の概要: Differentiable Wavetable Synthesis
- arxiv url: http://arxiv.org/abs/2111.10003v1
- Date: Fri, 19 Nov 2021 01:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 02:43:24.716995
- Title: Differentiable Wavetable Synthesis
- Title(参考訳): 微分可能な波長合成
- Authors: Siyuan Shan, Lamtharn Hantrakul, Jitong Chen, Matt Avent, David
Trevelyan
- Abstract要約: Differentiable Wavetable Synthesis (DWTS)は、一周期波形の辞書を学習するニューラルオーディオ合成技術である。
10から20の波長で高忠実な音声合成を実現する。
入力音声のほんの数秒で、高品質なピッチシフトなどのオーディオ操作を示す。
- 参考スコア(独自算出の注目度): 7.585969077788285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable Wavetable Synthesis (DWTS) is a technique for neural audio
synthesis which learns a dictionary of one-period waveforms i.e. wavetables,
through end-to-end training. We achieve high-fidelity audio synthesis with as
little as 10 to 20 wavetables and demonstrate how a data-driven dictionary of
waveforms opens up unprecedented one-shot learning paradigms on short audio
clips. Notably, we show audio manipulations, such as high quality
pitch-shifting, using only a few seconds of input audio. Lastly, we investigate
performance gains from using learned wavetables for realtime and interactive
audio synthesis.
- Abstract(参考訳): 微分可能なウェーブテーブル合成(英: Differentiable Wavetable Synthesis、DWTS)は、一周期波形の辞書、すなわちウェーブテーブルの辞書をエンドツーエンドの訓練によって学習するニューラルオーディオ合成技術である。
10~20個のウェーブテーブルで高忠実度音声合成を実現し,データ駆動波形辞書が,短い音声クリップで前例のないワンショット学習パラダイムを展開する様子を実演する。
特に、数秒の入力音声を用いて、高品質なピッチシフトなどのオーディオ操作を示す。
最後に,リアルタイムおよびインタラクティブな音声合成のための学習ウェーブテーブルによる性能向上について検討する。
関連論文リスト
- Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Continuous Wavelet Vocoder-based Decomposition of Parametric Speech
Waveform Synthesis [2.6572330982240935]
音声技術システムは、音声波形を合成するためのボコーダアプローチを採用している。
WaveNetは人間の声に近い最高のモデルのひとつです。
論文 参考訳(メタデータ) (2021-06-12T20:55:44Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Pretraining Strategies, Waveform Model Choice, and Acoustic
Configurations for Multi-Speaker End-to-End Speech Synthesis [47.30453049606897]
得られたオーディオブックデータからマルチ話者モデルを微調整することで、合成音声の未確認話者と自然性や類似性を向上させることができる。
また16kHzから24kHzのサンプリングレートでリスナーが識別でき、WaveRNNはWaveNetに匹敵する品質の出力波形を生成する。
論文 参考訳(メタデータ) (2020-11-10T00:19:04Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。