論文の概要: Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration
- arxiv url: http://arxiv.org/abs/2109.05426v1
- Date: Sun, 12 Sep 2021 04:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:17:46.935430
- Title: Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration
- Title(参考訳): 音声ナレーションにおける音声挿入のためのゼロショット音声合成
- Authors: Chuanxin Tang, Chong Luo, Zhiyuan Zhao, Dacheng Yin, Yucheng Zhao and
Wenjun Zeng
- Abstract要約: 話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 62.75234183218897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given a piece of speech and its transcript text, text-based speech editing
aims to generate speech that can be seamlessly inserted into the given speech
by editing the transcript. Existing methods adopt a two-stage approach:
synthesize the input text using a generic text-to-speech (TTS) engine and then
transform the voice to the desired voice using voice conversion (VC). A major
problem of this framework is that VC is a challenging problem which usually
needs a moderate amount of parallel training data to work satisfactorily. In
this paper, we propose a one-stage context-aware framework to generate natural
and coherent target speech without any training data of the target speaker. In
particular, we manage to perform accurate zero-shot duration prediction for the
inserted text. The predicted duration is used to regulate both text embedding
and speech embedding. Then, based on the aligned cross-modality input, we
directly generate the mel-spectrogram of the edited speech with a
transformer-based decoder. Subjective listening tests show that despite the
lack of training data for the speaker, our method has achieved satisfactory
results. It outperforms a recent zero-shot TTS engine by a large margin.
- Abstract(参考訳): テキストベースの音声編集は、音声の断片とその転写テキストが与えられたとき、テキストを編集することで、与えられた音声にシームレスに挿入できる音声を生成する。
既存の方法は2段階のアプローチを採用する: 入力テキストを汎用テキスト音声(TTS)エンジンで合成し、音声変換(VC)を用いて音声を所望の音声に変換する。
このフレームワークの大きな問題は、vcが、満足に働くために適度な量の並列トレーニングデータを必要とする難しい問題であることです。
本稿では,対象話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
特に,挿入されたテキストに対して正確なゼロショット期間予測を行うことができた。
予測期間は、テキスト埋め込みと音声埋め込みの両方を制御するために使用される。
そして、アライメントされたクロスモダリティ入力に基づいて、変換器ベースのデコーダを用いて、編集音声のメルスペクトログラムを直接生成する。
主観的聴力テストの結果,話者の学習データが不足しているにもかかわらず,本手法は良好な結果を得た。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。