Fugu-MT 論文翻訳(概要): Voicing Personas: Rewriting Persona Descriptions into Style Prompts for Controllable Text-to-Speech

論文の概要: Voicing Personas: Rewriting Persona Descriptions into Style Prompts for Controllable Text-to-Speech

arxiv url: http://arxiv.org/abs/2505.17093v1
Date: Wed, 21 May 2025 01:28:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.553654
Title: Voicing Personas: Rewriting Persona Descriptions into Style Prompts for Controllable Text-to-Speech
Title（参考訳）: 音声ペルソナ:制御可能なテキスト音声合成のためのスタイルプロンプトにペルソナ記述を書き換える
Authors: Yejin Lee, Jaehoon Kang, Kyuhong Shim,
Abstract要約: 汎用的なペルソナ記述を音声指向のプロンプトに変換するための2つのペルソナ書き換え戦略を提案する。本手法は,合成音声の自然性,明瞭性,一貫性を高める。我々は、ペルソナ駆動型AI対話システムにおいて、音声スタイルを重要な要素として評価する。
参考スコア（独自算出の注目度）: 4.87419493652367
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we propose a novel framework to control voice style in prompt-based, controllable text-to-speech systems by leveraging textual personas as voice style prompts. We present two persona rewriting strategies to transform generic persona descriptions into speech-oriented prompts, enabling fine-grained manipulation of prosodic attributes such as pitch, emotion, and speaking rate. Experimental results demonstrate that our methods enhance the naturalness, clarity, and consistency of synthesized speech. Finally, we analyze implicit social biases introduced by LLM-based rewriting, with a focus on gender. We underscore voice style as a crucial factor for persona-driven AI dialogue systems.
Abstract（参考訳）: 本稿では,音声スタイルのプロンプトとしてテキストペルソナを活用することで,音声スタイルを制御する新しいフレームワークを提案する。本稿では,汎用的なペルソナ記述を音声指向のプロンプトに変換するための2つのペルソナ書き換え戦略を提案する。実験結果から, 合成音声の自然性, 明瞭性, 一貫性が向上することが示唆された。最後に, LLMによる書き直しによる暗黙の社会的偏見を分析し, ジェンダーに着目した。我々は、ペルソナ駆動型AI対話システムにおいて、音声スタイルを重要な要素として評価する。

関連論文リスト

Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-05-25T04:43:17Z)
Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文参考訳（メタデータ） (2024-06-10T15:58:42Z)
PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文参考訳（メタデータ） (2023-09-15T04:11:37Z)
TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-28T09:06:32Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
Zero-shot personalized lip-to-speech synthesis with face image based voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文参考訳（メタデータ） (2023-05-09T02:37:29Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)
Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文参考訳（メタデータ） (2021-06-11T08:33:52Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)
Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文参考訳（メタデータ） (2021-01-30T05:09:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。