Fugu-MT 論文翻訳(概要): Incremental FastPitch: Chunk-based High Quality Text to Speech

論文の概要: Incremental FastPitch: Chunk-based High Quality Text to Speech

arxiv url: http://arxiv.org/abs/2401.01755v1
Date: Wed, 3 Jan 2024 14:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 13:59:46.296986
Title: Incremental FastPitch: Chunk-based High Quality Text to Speech
Title（参考訳）: インクリメンタル・ファストピッチ: チャンクベースの高品質音声テキスト
Authors: Muyang Du, Chuan Liu, Junjie Lai
Abstract要約: Incrmental FastPitchは高品質なメルチャンクをインクリメンタルに生成できる新しいFastPitch変種である。実験の結果,提案手法は並列FastPitchに匹敵する音声品質が得られることがわかった。
参考スコア（独自算出の注目度）: 0.7366405857677227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional auto-regressive models. Although parallel models have benefits in many aspects, they become naturally unfit for incremental synthesis due to their fully parallel architecture such as transformer. In this work, we propose Incremental FastPitch, a novel FastPitch variant capable of incrementally producing high-quality Mel chunks by improving the architecture with chunk-based FFT blocks, training with receptive-field constrained chunk attention masks, and inference with fixed size past model states. Experimental results show that our proposal can produce speech quality comparable to the parallel FastPitch, with a significant lower latency that allows even lower response time for real-time speech applications.
Abstract（参考訳）: パラレルテキスト音声合成モデルはリアルタイム音声合成に広く応用されており、従来の自己回帰モデルに比べて制御性が高く、より高速な合成プロセスを提供する。並列モデルは多くの点で利点があるが、トランスフォーマーのような完全な並列アーキテクチャのため、インクリメンタルな合成には自然に不向きである。本研究では,チャンクベースFFTブロックによるアーキテクチャの改善,受容場制約されたチャンクアテンションマスクによるトレーニング,モデル状態の固定化などにより,高品質なメルチャンクを段階的に生成できる新しいFastPitchバリアントであるIncremental FastPitchを提案する。実験の結果,本提案手法は並列ファストピッチに匹敵する音声品質を実現することができ,リアルタイム音声アプリケーションの応答時間がさらに短縮されることがわかった。

関連論文リスト

Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文参考訳（メタデータ） (2025-07-16T12:47:09Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文参考訳（メタデータ） (2024-12-19T17:59:54Z)
Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding [11.128340782271305]
VADUSAは投機的復号化によって自動回帰TTSを高速化する最初のアプローチの一つである。以上の結果から,VADUSAは推論速度を大幅に向上するだけでなく,将来的な音声コンテンツを自動回帰的に予測するためにドラフトヘッドを組み込むことにより,性能の向上を図っている。
論文参考訳（メタデータ） (2024-10-29T11:12:01Z)
DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech [43.45691362372739]
テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。 DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
論文参考訳（メタデータ） (2024-09-18T09:36:55Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。 FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文参考訳（メタデータ） (2022-04-21T07:49:09Z)
Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文参考訳（メタデータ） (2022-03-21T15:14:44Z)
SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文参考訳（メタデータ） (2021-10-11T19:23:50Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文参考訳（メタデータ） (2021-03-17T07:11:09Z)
FastPitch: Parallel Text-to-speech with Pitch Prediction [9.213700601337388]
我々はFastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchを提案する。モデルは推論中のピッチの輪郭を予測し、これらの予測を変更することにより、生成された音声をより表現的にすることができる。
論文参考訳（メタデータ） (2020-06-11T23:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。