論文の概要: EdiTTS: Score-based Editing for Controllable Text-to-Speech
- arxiv url: http://arxiv.org/abs/2110.02584v1
- Date: Wed, 6 Oct 2021 08:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 02:19:34.595727
- Title: EdiTTS: Score-based Editing for Controllable Text-to-Speech
- Title(参考訳): EdiTTS:制御可能なテキスト音声編集のためのスコアベース編集
- Authors: Jaesung Tae, Hyeongju Kim, Taesu Kim
- Abstract要約: EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
- 参考スコア(独自算出の注目度): 9.34612743192798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EdiTTS, an off-the-shelf speech editing methodology based on
score-based generative modeling for text-to-speech synthesis. EdiTTS allows for
targeted, granular editing of audio, both in terms of content and pitch,
without the need for any additional training, task-specific optimization, or
architectural modifications to the score-based model backbone. Specifically, we
apply coarse yet deliberate perturbations in the Gaussian prior space to induce
desired behavior from the diffusion model, while applying masks and softening
kernels to ensure that iterative edits are applied only to the target region.
Listening tests demonstrate that EdiTTS is capable of reliably generating
natural-sounding audio that satisfies user-imposed requirements.
- Abstract(参考訳): 音声合成のためのスコアベース生成モデルに基づく音声編集手法であるEdiTTSを提案する。
EdiTTSは、追加のトレーニング、タスク固有の最適化、スコアベースのモデルバックボーンへのアーキテクチャ変更を必要とせずに、コンテンツとピッチの両方の観点から、ターゲットとする、きめ細かいオーディオ編集を可能にする。
具体的には,拡散モデルから所望の振る舞いを誘導するためにガウス前空間に粗いが故意な摂動を適用し,マスクや軟化カーネルを適用して,反復的な編集が対象領域にのみ適用されることを保証する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Style Description based Text-to-Speech with Conditional Prosodic Layer
Normalization based Diffusion GAN [17.876323494898536]
本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。
提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
論文 参考訳(メタデータ) (2023-10-27T14:28:41Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。