論文の概要: Controllable Generation of Artificial Speaker Embeddings through
Discovery of Principal Directions
- arxiv url: http://arxiv.org/abs/2310.17502v1
- Date: Thu, 26 Oct 2023 15:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:30:48.148011
- Title: Controllable Generation of Artificial Speaker Embeddings through
Discovery of Principal Directions
- Title(参考訳): 主方向の発見による人工話者埋め込みの制御可能生成
- Authors: Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu
- Abstract要約: 本研究では,実際の人間にリンクできない人工話者埋め込みを生成する手法を提案する。
制御可能な埋め込みは、訓練中に実際の人間の埋め込みを条件とした音声合成システムに供給することができる。
- 参考スコア(独自算出の注目度): 29.03308434639149
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Customizing voice and speaking style in a speech synthesis system with
intuitive and fine-grained controls is challenging, given that little data with
appropriate labels is available. Furthermore, editing an existing human's voice
also comes with ethical concerns. In this paper, we propose a method to
generate artificial speaker embeddings that cannot be linked to a real human
while offering intuitive and fine-grained control over the voice and speaking
style of the embeddings, without requiring any labels for speaker or style. The
artificial and controllable embeddings can be fed to a speech synthesis system,
conditioned on embeddings of real humans during training, without sacrificing
privacy during inference.
- Abstract(参考訳): 音声合成システムにおける音声と発話のスタイルを直感的かつ細かな制御でカスタマイズすることは、適切なラベルを持つデータが少ないことを考えると困難である。
さらに、既存の人間の声の編集にも倫理的な懸念が伴う。
本稿では, 話者やスタイルのラベルを必要とせず, 音声の直感的できめ細かな制御を行いながら, 実際の人間にリンクできない人工話者埋め込みを生成する手法を提案する。
人工的かつ制御可能な埋め込みは、トレーニング中に実際の人間の埋め込みを条件に、音声合成システムに供給することができる。
関連論文リスト
- Coding Speech through Vocal Tract Kinematics [5.0751585360524425]
調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。
話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文 参考訳(メタデータ) (2024-06-18T18:38:17Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。