論文の概要: Enhancement of Pitch Controllability using Timbre-Preserving Pitch
Augmentation in FastPitch
- arxiv url: http://arxiv.org/abs/2204.05753v1
- Date: Tue, 12 Apr 2022 12:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 18:43:49.955589
- Title: Enhancement of Pitch Controllability using Timbre-Preserving Pitch
Augmentation in FastPitch
- Title(参考訳): 音色保存ピッチ強調によるファストピッチのピッチ制御性の向上
- Authors: Hanbin Bae, Young-Sun Joo
- Abstract要約: 我々はFastPitchの堅牢性を改善するために2つのアルゴリズムを提案する。
まず,自然ピッチ増大のための音節保存型ピッチシフトアルゴリズムを提案する。
実験により,提案アルゴリズムはFastPitchのピッチ制御性を向上することを示した。
- 参考スコア(独自算出の注目度): 3.858078488714278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently developed pitch-controllable text-to-speech (TTS) model, i.e.
FastPitch, was conditioned for the pitch contours. However, the quality of the
synthesized speech degraded considerably for pitch values that deviated
significantly from the average pitch; i.e. the ability to control pitch was
limited. To address this issue, we propose two algorithms to improve the
robustness of FastPitch. First, we propose a novel timbre-preserving
pitch-shifting algorithm for natural pitch augmentation. Pitch-shifted speech
samples sound more natural when using the proposed algorithm because the
speaker's vocal timbre is maintained. Moreover, we propose a training algorithm
that defines FastPitch using pitch-augmented speech datasets with different
pitch ranges for the same sentence. The experimental results demonstrate that
the proposed algorithms improve the pitch controllability of FastPitch.
- Abstract(参考訳): 最近開発されたピッチ制御可能なテキスト音声合成(TTS)モデル、すなわちFastPitchはピッチの輪郭に設定された。
しかし, 合成音声の品質は, 平均ピッチから著しく低下したピッチ値に対して有意に低下し, ピッチ制御能力は限られていた。
そこで本研究では,FastPitchの堅牢性向上のための2つのアルゴリズムを提案する。
まず,自然ピッチ増大のための音節保存型ピッチシフトアルゴリズムを提案する。
ピッチシフト音声サンプルは,話者の発声音色が維持されるため,提案アルゴリズムを用いた場合より自然に聞こえる。
さらに,同じ文に対して異なるピッチ範囲を持つ音声データセットを用いてFastPitchを定義する訓練アルゴリズムを提案する。
実験により,提案アルゴリズムはFastPitchのピッチ制御性を向上することを示した。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - PITS: Variational Pitch Inference without Fundamental Frequency for
End-to-End Pitch-controllable TTS [1.5599422325061418]
PITSは、エンドツーエンドのピッチ制御可能なテキスト音声合成モデルである。
PitsはYingramエンコーダ、Yingramデコーダ、ピッチシフト合成の対角訓練を取り入れてピッチ制御性を実現する。
論文 参考訳(メタデータ) (2023-02-24T01:43:17Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z) - Unsupervised Classification of Voiced Speech and Pitch Tracking Using
Forward-Backward Kalman Filtering [14.950964357181524]
3つのサブタスクを1つの手順に統合する新しいアルゴリズムを紹介します。
このアルゴリズムは、大量の背景雑音が存在する場合の事前録音音声に応用できる。
論文 参考訳(メタデータ) (2021-03-01T18:13:23Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - FastPitch: Parallel Text-to-speech with Pitch Prediction [9.213700601337388]
我々はFastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchを提案する。
モデルは推論中のピッチの輪郭を予測し、これらの予測を変更することにより、生成された音声をより表現的にすることができる。
論文 参考訳(メタデータ) (2020-06-11T23:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。