論文の概要: Towards zero-shot Text-based voice editing using acoustic context
conditioning, utterance embeddings, and reference encoders
- arxiv url: http://arxiv.org/abs/2210.16045v1
- Date: Fri, 28 Oct 2022 10:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:10:34.020821
- Title: Towards zero-shot Text-based voice editing using acoustic context
conditioning, utterance embeddings, and reference encoders
- Title(参考訳): 音響コンディショニング, 発話埋め込み, 参照エンコーダを用いたゼロショットテキスト音声編集に向けて
- Authors: Jason Fong, Yun Wang, Prabhav Agrawal, Vimal Manohar, Jilong Wu, Thilo
K\"ohler, Qing He
- Abstract要約: テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。
近年の研究では、ニューラルモデルを用いて、明瞭さ、話者識別、韻律の観点から、オリジナルの音声に似た編集された音声を生成する。
この研究は、微調整を完全に回避するゼロショットアプローチに焦点を当てている。
- 参考スコア(独自算出の注目度): 14.723225542605105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based voice editing (TBVE) uses synthetic output from text-to-speech
(TTS) systems to replace words in an original recording. Recent work has used
neural models to produce edited speech that is similar to the original speech
in terms of clarity, speaker identity, and prosody. However, one limitation of
prior work is the usage of finetuning to optimise performance: this requires
further model training on data from the target speaker, which is a costly
process that may incorporate potentially sensitive data into server-side
models. In contrast, this work focuses on the zero-shot approach which avoids
finetuning altogether, and instead uses pretrained speaker verification
embeddings together with a jointly trained reference encoder to encode
utterance-level information that helps capture aspects such as speaker identity
and prosody. Subjective listening tests find that both utterance embeddings and
a reference encoder improve the continuity of speaker identity and prosody
between the edited synthetic speech and unedited original recording in the
zero-shot setting.
- Abstract(参考訳): テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。
最近の研究では、明快さ、話者のアイデンティティ、韻律の観点で元の音声と類似した編集された音声を生成するために神経モデルを用いている。
しかし、事前作業の1つの制限は、パフォーマンスを最適化するために微調整を使用することである。これは、潜在的にセンシティブなデータをサーバーサイドモデルに組み込むコストのかかるプロセスである、ターゲットスピーカーからのデータに対するさらなるモデルのトレーニングを必要とする。
対照的に、この研究はゼロショットのアプローチに重点を置いており、その代わりに事前訓練された話者検証の埋め込みと、共同で訓練された参照エンコーダを用いて、話者識別や韻律などの側面を捉えるのに役立つ発話レベル情報を符号化している。
主観的聴取テストでは、発話埋め込みと参照エンコーダの両方が、編集された合成音声とゼロショット設定における未編集のオリジナル録音との間の話者識別と韻律の連続性を改善する。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。