Fugu-MT 論文翻訳(概要): STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech

論文の概要: STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech

arxiv url: http://arxiv.org/abs/2103.09474v1
Date: Wed, 17 Mar 2021 07:11:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-18 13:07:54.068160
Title: STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech
Title（参考訳）: STYLER:表現的・制御可能なニューラルテキストから音声への音声分解による迅速・ロバストなスタイルモデリング
Authors: Keon Lee, Kyumin Park, Daeyoung Kim
Abstract要約: STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
参考スコア（独自算出の注目度）: 2.622482339911829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous works on expressive text-to-speech (TTS) have a limitation on robustness and speed when training and inferring. Such drawbacks mostly come from autoregressive decoding, which makes the succeeding step vulnerable to preceding error. To overcome this weakness, we propose STYLER, a novel expressive text-to-speech model with parallelized architecture. Expelling autoregressive decoding and introducing speech decomposition for encoding enables speech synthesis more robust even with high style transfer performance. Moreover, our novel noise modeling approach from audio using domain adversarial training and Residual Decoding enabled style transfer without transferring noise. Our experiments prove the naturalness and expressiveness of our model from comparison with other parallel TTS models. Together we investigate our model's robustness and speed by comparison with the expressive TTS model with autoregressive decoding.
Abstract（参考訳）: tts(expressive text-to-speech)は、トレーニングや推論時の堅牢性と速度に制限がある。このような欠点は主に自己回帰的復号化によるものであり、次のステップは前のエラーに対して脆弱である。この弱点を克服するために,並列化アーキテクチャを用いた新しい表現型テキスト音声合成モデルSTYLERを提案する。自己回帰復号の排除と符号化のための音声分解の導入により、高いスタイル転送性能でも音声合成がより堅牢になる。さらに, 雑音を伝達することなく, ドメイン逆学習と残余復号化により, 音声からの新たなノイズモデリング手法を提案する。実験により,他の並列ttsモデルとの比較から,モデルの自然性と表現性が証明された。本稿では, 自己回帰復号法と表現型TSモデルとの比較により, モデルの堅牢性と速度について検討する。

関連論文リスト

Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文参考訳（メタデータ） (2025-07-16T12:47:09Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
ReverBERT: A State Space Model for Efficient Text-Driven Speech Style Transfer [0.0]
テキスト駆動音声スタイル転送のための効率的なフレームワークであるemphReverBERTを提案する。画像領域の技法とは異なり,本手法は音声空間で動作し,音声特徴の離散フーリエ変換を統合する。ベンチマーク音声コーパスの実験では、emphReverBERTは自然性、表現性、計算効率の点でベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-03-26T21:11:17Z)
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文参考訳（メタデータ） (2024-11-20T09:49:37Z)
DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech [43.45691362372739]
テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。 DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
論文参考訳（メタデータ） (2024-09-18T09:36:55Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文参考訳（メタデータ） (2022-12-20T15:16:24Z)
Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文参考訳（メタデータ） (2022-03-21T15:14:44Z)
Advances in Speech Vocoding for Text-to-Speech with Continuous Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文参考訳（メタデータ） (2021-06-19T12:05:01Z)
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-12T16:16:41Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。