論文の概要: WaveNODE: A Continuous Normalizing Flow for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2006.04598v4
- Date: Thu, 2 Jul 2020 23:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:17:25.386588
- Title: WaveNODE: A Continuous Normalizing Flow for Speech Synthesis
- Title(参考訳): WaveNODE:音声合成のための連続正規化フロー
- Authors: Hyeongju Kim, Hyeonseung Lee, Woo Hyun Kang, Sung Jun Cheon, Byoung
Jin Choi, Nam Soo Kim
- Abstract要約: 本稿では,音声合成のための連続正規化フローを利用するWaveNODEと呼ばれる新しい生成モデルを提案する。
WaveNODEはフロー操作に使用する関数に制約を課さないため、より柔軟で複雑な関数を使用することができる。
本研究では,従来のフローベースボコーダに比べて少ないパラメータでウェーブヌードが同等の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 15.051929807285847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, various flow-based generative models have been proposed to
generate high-fidelity waveforms in real-time. However, these models require
either a well-trained teacher network or a number of flow steps making them
memory-inefficient. In this paper, we propose a novel generative model called
WaveNODE which exploits a continuous normalizing flow for speech synthesis.
Unlike the conventional models, WaveNODE places no constraint on the function
used for flow operation, thus allowing the usage of more flexible and complex
functions. Moreover, WaveNODE can be optimized to maximize the likelihood
without requiring any teacher network or auxiliary loss terms. We
experimentally show that WaveNODE achieves comparable performance with fewer
parameters compared to the conventional flow-based vocoders.
- Abstract(参考訳): 近年,高忠実度波形をリアルタイムに生成するフローベース生成モデルが提案されている。
しかし、これらのモデルは、よく訓練された教師ネットワークか、メモリ非効率な複数のフローステップを必要とする。
本稿では,音声合成のための連続正規化フローを利用するWaveNODEという新しい生成モデルを提案する。
従来のモデルとは異なり、WaveNODEはフロー操作に使用する関数に制約を課さないため、より柔軟で複雑な関数を使用することができる。
さらに、WaveNODEは教師ネットワークや補助的損失項を必要とせずに、可能性の最大化に最適化することができる。
本研究では,従来のフローベースボコーダに比べて少ないパラメータでウェーブヌードが同等の性能を発揮することを示す。
関連論文リスト
- Trajectory Flow Matching with Applications to Clinical Time Series Modeling [77.58277281319253]
Trajectory Flow Matching (TFM) は、シミュレーションのない方法でニューラルSDEを訓練し、ダイナミックスを通してバックプロパゲーションをバイパスする。
絶対的性能と不確実性予測の観点から,3つの臨床時系列データセットの性能向上を実証した。
論文 参考訳(メタデータ) (2024-10-28T15:54:50Z) - PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Variational waveguide QED simulators [58.720142291102135]
導波管QEDシミュレータは1次元フォトニックバンドギャップ材料と相互作用する量子エミッタによって構成される。
ここでは、これらの相互作用がより効率的な変分量子アルゴリズムを開発するためのリソースとなることを実証する。
論文 参考訳(メタデータ) (2023-02-03T18:55:08Z) - Incremental Spatial and Spectral Learning of Neural Operators for
Solving Large-Scale PDEs [86.35471039808023]
Incrmental Fourier Neural Operator (iFNO)を導入し、モデルが使用する周波数モードの数を徐々に増加させる。
iFNOは、各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。
提案手法は,既存のフーリエニューラル演算子に比べて20%少ない周波数モードを用いて,10%低いテスト誤差を示すとともに,30%高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2022-11-28T09:57:15Z) - Waveflow: boundary-conditioned normalizing flows applied to fermionic wavefunctions [3.7135179920970534]
本稿では,境界条件付き正規化フローを用いたフェルミオン波動関数の学習フレームワークであるWaveflowを紹介する。
本研究では,ウェーブフローがトポロジ的ミスマッチを効果的に解決し,基底状態の波動関数を忠実に学習できることを示す。
論文 参考訳(メタデータ) (2022-11-27T14:32:09Z) - Solving Seismic Wave Equations on Variable Velocity Models with Fourier
Neural Operator [3.2307366446033945]
本稿では,FNOに基づく解法を効率的に学習するための新しいフレームワークであるFourier Neural operator (PFNO)を提案する。
数値実験により、複雑な速度モデルによるFNOとPFNOの精度が示された。
PFNOは、従来の有限差分法と比較して、大規模なテストデータセットの計算効率が高いことを認めている。
論文 参考訳(メタデータ) (2022-09-25T22:25:57Z) - Generative Modeling for Low Dimensional Speech Attributes with Neural
Spline Flows [22.78165635389179]
ピッチ情報は低次元であるだけでなく、不連続でもあるため、生成的な環境では特にモデル化が困難である。
この問題は、正規化フローにおけるより一般的なアフィンカップリング機構の代用として非常に表現力の高いニューラルスプラインフローに非常に適している。
論文 参考訳(メタデータ) (2022-03-03T15:58:08Z) - Wavelet Flow: Fast Training of High Resolution Normalizing Flows [27.661467862732792]
本稿では,ウェーブレットに基づくマルチスケール正規化フローアーキテクチャであるWavelet Flowを紹介する。
Wavelet Flowの大きな利点は、以前のモデルでは実現不可能な高解像度データの生成モデルを構築することができることである。
論文 参考訳(メタデータ) (2020-10-26T18:13:43Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。
提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。
本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-06-18T17:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。