論文の概要: FastPitch: Parallel Text-to-speech with Pitch Prediction
- arxiv url: http://arxiv.org/abs/2006.06873v2
- Date: Tue, 16 Feb 2021 14:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:55:39.744885
- Title: FastPitch: Parallel Text-to-speech with Pitch Prediction
- Title(参考訳): FastPitch: ピッチ予測を備えた並列テキスト音声合成
- Authors: Adrian {\L}a\'ncucki
- Abstract要約: 我々はFastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchを提案する。
モデルは推論中のピッチの輪郭を予測し、これらの予測を変更することにより、生成された音声をより表現的にすることができる。
- 参考スコア(独自算出の注目度): 9.213700601337388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FastPitch, a fully-parallel text-to-speech model based on
FastSpeech, conditioned on fundamental frequency contours. The model predicts
pitch contours during inference. By altering these predictions, the generated
speech can be more expressive, better match the semantic of the utterance, and
in the end more engaging to the listener. Uniformly increasing or decreasing
pitch with FastPitch generates speech that resembles the voluntary modulation
of voice. Conditioning on frequency contours improves the overall quality of
synthesized speech, making it comparable to state-of-the-art. It does not
introduce an overhead, and FastPitch retains the favorable, fully-parallel
Transformer architecture, with over 900x real-time factor for mel-spectrogram
synthesis of a typical utterance.
- Abstract(参考訳): 本稿では,FastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchについて述べる。
モデルは推論中にピッチ輪郭を予測する。
これらの予測を変更することで、生成された音声はより表現力があり、発話の意味がよりよく一致し、最後にはリスナーにより関与する。
FastPitchによる一様増加または縮小は、音声の自発的な変調に似た音声を生成する。
周波数パターンのコンディショニングは合成音声の全体的な品質を改善し、最先端に匹敵する。
オーバーヘッドは発生せず、FastPitchは、典型的な発話のメル-スペクトログラム合成に900倍以上のリアルタイム係数を持つ、好ましい完全な並列トランスフォーマーアーキテクチャを維持している。
関連論文リスト
- DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech [43.45691362372739]
テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。
DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。
実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T09:36:55Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Incremental FastPitch: Chunk-based High Quality Text to Speech [0.7366405857677227]
Incrmental FastPitchは高品質なメルチャンクをインクリメンタルに生成できる新しいFastPitch変種である。
実験の結果,提案手法は並列FastPitchに匹敵する音声品質が得られることがわかった。
論文 参考訳(メタデータ) (2024-01-03T14:17:35Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。