論文の概要: WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
- arxiv url: http://arxiv.org/abs/2002.00417v3
- Date: Tue, 7 Apr 2020 01:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:14:15.970880
- Title: WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss
- Title(参考訳): wavetts:タコトロンベースのttsと時間周波数領域の同時損失
- Authors: Rui Liu, Berrak Sisman, Feilong Bao, Guanglai Gao, Haizhou Li
- Abstract要約: Tacotron-based text-to-speech (TTS) システムはテキスト入力から直接音声を合成する。
本稿では2つの損失関数を持つタコトロン型TS(WaveTTS)の新たなトレーニング手法を提案する。
WaveTTSは、音響特性と結果の音声波形の両方の品質を保証する。
- 参考スコア(独自算出の注目度): 74.11899135025503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tacotron-based text-to-speech (TTS) systems directly synthesize speech from
text input. Such frameworks typically consist of a feature prediction network
that maps character sequences to frequency-domain acoustic features, followed
by a waveform reconstruction algorithm or a neural vocoder that generates the
time-domain waveform from acoustic features. As the loss function is usually
calculated only for frequency-domain acoustic features, that doesn't directly
control the quality of the generated time-domain waveform. To address this
problem, we propose a new training scheme for Tacotron-based TTS, referred to
as WaveTTS, that has 2 loss functions: 1) time-domain loss, denoted as the
waveform loss, that measures the distortion between the natural and generated
waveform; and 2) frequency-domain loss, that measures the Mel-scale acoustic
feature loss between the natural and generated acoustic features. WaveTTS
ensures both the quality of the acoustic features and the resulting speech
waveform. To our best knowledge, this is the first implementation of Tacotron
with joint time-frequency domain loss. Experimental results show that the
proposed framework outperforms the baselines and achieves high-quality
synthesized speech.
- Abstract(参考訳): Tacotron-based text-to-speech (TTS) システムはテキスト入力から直接音声を合成する。
このようなフレームワークは典型的には、文字列を周波数領域音響特徴にマッピングする特徴予測ネットワークから成り、続いて波形再構成アルゴリズムや時間領域波形を音響特徴から生成する神経ボコーダが続く。
損失関数は通常周波数領域音響特性のみに計算されるため、生成された時間領域波形の質を直接制御しない。
この問題に対処するため,我々は2つの損失関数を持つttsと呼ばれるタコトロンベースのttsのための新しいトレーニングスキームを提案する。
1) 自然波形と生成された波形の間の歪みを測定する波形損失と表現される時間領域損失
2)周波数領域損失は,自然音と生成音のメルスケール音響的特徴量を測定する。
WaveTTSは、音響特性と結果の音声波形の両方の品質を保証する。
我々の知る限り、これは共同時間周波数領域損失を持つタコトロンの最初の実装である。
実験結果は,提案手法がベースラインを上回り,高品質合成音声を実現することを示す。
関連論文リスト
- PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - Xi-Net: Transformer Based Seismic Waveform Reconstructor [44.99833362998488]
地震波形のギャップは、さらなる信号処理を妨げ、貴重な情報を得る。
本稿では,複数面時間と周波数領域入力を用いた変換器を用いた深層学習モデルXi-Netを提案する。
我々の知る限りでは、これは地震波形再構成のためのトランスフォーマーに基づく最初のディープラーニングモデルである。
論文 参考訳(メタデータ) (2024-06-14T22:34:13Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - Wave simulation in non-smooth media by PINN with quadratic neural
network and PML condition [2.7651063843287718]
最近提案された物理インフォームドニューラルネットワーク(PINN)は、幅広い偏微分方程式(PDE)を解くことに成功している。
本稿では、波動方程式の代わりにPINNを用いて周波数領域における音響および粘性音響散乱波動方程式を解き、震源の摂動を除去する。
PMLと2次ニューロンは、その効果と減衰を改善できることを示し、この改善の理由を議論する。
論文 参考訳(メタデータ) (2022-08-16T13:29:01Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。