論文の概要: Description-based Controllable Text-to-Speech with Cross-Lingual Voice
Control
- arxiv url: http://arxiv.org/abs/2409.17452v1
- Date: Thu, 26 Sep 2024 01:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:40:01.071427
- Title: Description-based Controllable Text-to-Speech with Cross-Lingual Voice
Control
- Title(参考訳): 言語間音声を用いた記述型可制御テキスト音声合成
制御
- Authors: Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana
- Abstract要約: 本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。
我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。
英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
- 参考スコア(独自算出の注目度): 14.145510487599932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel description-based controllable text-to-speech (TTS) method
with cross-lingual control capability. To address the lack of audio-description
paired data in the target language, we combine a TTS model trained on the
target language with a description control model trained on another language,
which maps input text descriptions to the conditional features of the TTS
model. These two models share disentangled timbre and style representations
based on self-supervised learning (SSL), allowing for disentangled voice
control, such as controlling speaking styles while retaining the original
timbre. Furthermore, because the SSL-based timbre and style representations are
language-agnostic, combining the TTS and description control models while
sharing the same embedding space effectively enables cross-lingual control of
voice characteristics. Experiments on English and Japanese TTS demonstrate that
our method achieves high naturalness and controllability for both languages,
even though no Japanese audio-description pairs are used.
- Abstract(参考訳): 本稿では,言語間制御機能を備えた新しい記述型制御可能なテキスト音声合成手法を提案する。
対象言語における音声記述ペアリングデータの欠如に対処するため、ターゲット言語で訓練されたTSモデルと、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする他言語で訓練された記述制御モデルを組み合わせる。
これら2つのモデルは、自己教師付き学習(SSL)に基づいて、アンタングル付き音色とスタイル表現を共有し、元の音色を維持しながら話し方を制御するなど、アンタングル型音声制御を可能にする。
さらに、SSLベースの音色とスタイル表現は言語に依存しないため、TTSと記述制御モデルを組み合わせて同じ埋め込み空間を共有することで、音声特性の言語間制御を効果的に実現する。
日本語と英語のTTS実験では,日本語の音声記述ペアは使用されていないものの,両言語で高い自然性や制御性が得られることが示された。
関連論文リスト
- StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。