論文の概要: Voice Impression Control in Zero-Shot TTS
- arxiv url: http://arxiv.org/abs/2506.05688v2
- Date: Mon, 09 Jun 2025 23:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.278345
- Title: Voice Impression Control in Zero-Shot TTS
- Title(参考訳): ゼロショットTSにおける音声印象制御
- Authors: Keinichi Fujita, Shota Horiguchi, Yusuke Ijima,
- Abstract要約: ゼロショット音声合成における音声印象制御法を開発した。
様々な音声印象対の強度を表現するために低次元ベクトルを用いる。
主観的評価と主観的評価の両方の結果から,印象制御における本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 15.46515385197271
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Para-/non-linguistic information in speech is pivotal in shaping the listeners' impression. Although zero-shot text-to-speech (TTS) has achieved high speaker fidelity, modulating subtle para-/non-linguistic information to control perceived voice characteristics, i.e., impressions, remains challenging. We have therefore developed a voice impression control method in zero-shot TTS that utilizes a low-dimensional vector to represent the intensities of various voice impression pairs (e.g., dark-bright). The results of both objective and subjective evaluations have demonstrated our method's effectiveness in impression control. Furthermore, generating this vector via a large language model enables target-impression generation from a natural language description of the desired impression, thus eliminating the need for manual optimization. Audio examples are available on our demo page (https://ntt-hilab-gensp.github.io/is2025voiceimpression/).
- Abstract(参考訳): 音声におけるパラ言語的・非言語的情報は、聴取者の印象を形作る上で重要である。
ゼロショット音声合成(TTS)は高い話者忠実度を達成しているが、微妙なパラ言語/非言語情報を変調して知覚された音声特性、すなわち印象を制御することは依然として困難である。
そこで我々は、低次元ベクトルを用いて様々な音声印象対(例えば、暗明)の強度を表現するゼロショットTSにおける音声印象制御法を開発した。
主観的評価と主観的評価の両方の結果から,印象制御における本手法の有効性が示された。
さらに、このベクトルを大きな言語モデルで生成することで、所望の印象の自然言語記述から目標印象を生成することができ、手動の最適化が不要になる。
オーディオサンプルはデモページ(https://ntt-hilab-gensp.github.io/is2025voiceimpression/)で公開しています。
関連論文リスト
- Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice Conversion [16.19865417052239]
Discl-VCはゼロショット音声変換フレームワークである。
内容と韻律情報を自己教師型音声表現から切り離す。
ターゲット話者の声をテキスト内学習により合成する。
論文 参考訳(メタデータ) (2025-05-30T07:04:23Z) - Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement [18.669597283434662]
Vevoは、コントロール可能な音色とスタイルを備えた汎用的なゼロショット音声模倣フレームワークである。
音声のコンテンツとコンテンツスタイルのトークンを得るために,完全自己教師型アプローチを設計する。
Vevoはアクセントと感情の変換タスクで既存のメソッドにマッチするか、超える。
論文 参考訳(メタデータ) (2025-02-11T04:18:33Z) - ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control [50.27383290553548]
ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。
ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。