論文の概要: Incremental FastPitch: Chunk-based High Quality Text to Speech
- arxiv url: http://arxiv.org/abs/2401.01755v1
- Date: Wed, 3 Jan 2024 14:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:59:46.296986
- Title: Incremental FastPitch: Chunk-based High Quality Text to Speech
- Title(参考訳): インクリメンタル・ファストピッチ: チャンクベースの高品質音声テキスト
- Authors: Muyang Du, Chuan Liu, Junjie Lai
- Abstract要約: Incrmental FastPitchは高品質なメルチャンクをインクリメンタルに生成できる新しいFastPitch変種である。
実験の結果,提案手法は並列FastPitchに匹敵する音声品質が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel text-to-speech models have been widely applied for real-time speech
synthesis, and they offer more controllability and a much faster synthesis
process compared with conventional auto-regressive models. Although parallel
models have benefits in many aspects, they become naturally unfit for
incremental synthesis due to their fully parallel architecture such as
transformer. In this work, we propose Incremental FastPitch, a novel FastPitch
variant capable of incrementally producing high-quality Mel chunks by improving
the architecture with chunk-based FFT blocks, training with receptive-field
constrained chunk attention masks, and inference with fixed size past model
states. Experimental results show that our proposal can produce speech quality
comparable to the parallel FastPitch, with a significant lower latency that
allows even lower response time for real-time speech applications.
- Abstract(参考訳): パラレルテキスト音声合成モデルはリアルタイム音声合成に広く応用されており、従来の自己回帰モデルに比べて制御性が高く、より高速な合成プロセスを提供する。
並列モデルは多くの点で利点があるが、トランスフォーマーのような完全な並列アーキテクチャのため、インクリメンタルな合成には自然に不向きである。
本研究では,チャンクベースFFTブロックによるアーキテクチャの改善,受容場制約されたチャンクアテンションマスクによるトレーニング,モデル状態の固定化などにより,高品質なメルチャンクを段階的に生成できる新しいFastPitchバリアントであるIncremental FastPitchを提案する。
実験の結果,本提案手法は並列ファストピッチに匹敵する音声品質を実現することができ,リアルタイム音声アプリケーションの応答時間がさらに短縮されることがわかった。
関連論文リスト
- Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding [11.128340782271305]
VADUSAは投機的復号化によって自動回帰TTSを高速化する最初のアプローチの一つである。
以上の結果から,VADUSAは推論速度を大幅に向上するだけでなく,将来的な音声コンテンツを自動回帰的に予測するためにドラフトヘッドを組み込むことにより,性能の向上を図っている。
論文 参考訳(メタデータ) (2024-10-29T11:12:01Z) - DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech [43.45691362372739]
テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。
DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。
実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T09:36:55Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - FastPitch: Parallel Text-to-speech with Pitch Prediction [9.213700601337388]
我々はFastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchを提案する。
モデルは推論中のピッチの輪郭を予測し、これらの予測を変更することにより、生成された音声をより表現的にすることができる。
論文 参考訳(メタデータ) (2020-06-11T23:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。