論文の概要: Lombard Speech Synthesis for Any Voice with Controllable Style Embeddings
- arxiv url: http://arxiv.org/abs/2601.12966v1
- Date: Mon, 19 Jan 2026 11:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.88095
- Title: Lombard Speech Synthesis for Any Voice with Controllable Style Embeddings
- Title(参考訳): 制御可能なスタイル埋め込みを持つ任意の音声に対するロンバルド音声合成
- Authors: Seymanur Akti, Alexander Waibel,
- Abstract要約: 任意の話者に対するロンバルド音声を訓練中に明示的なロンバルドデータを必要とせずに合成できる制御可能なテキスト音声合成システム(TTS)。
提案手法では,大規模で韻律的に多様なデータセットから学習したスタイル埋め込みを活用し,主成分分析(PCA)を用いてLombard属性との相関を解析する。
- 参考スコア(独自算出の注目度): 61.29502937013759
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Lombard effect plays a key role in natural communication, particularly in noisy environments or when addressing hearing-impaired listeners. We present a controllable text-to-speech (TTS) system capable of synthesizing Lombard speech for any speaker without requiring explicit Lombard data during training. Our approach leverages style embeddings learned from a large, prosodically diverse dataset and analyzes their correlation with Lombard attributes using principal component analysis (PCA). By shifting the relevant PCA components, we manipulate the style embeddings and incorporate them into our TTS model to generate speech at desired Lombard levels. Evaluations demonstrate that our method preserves naturalness and speaker identity, enhances intelligibility under noise, and provides fine-grained control over prosody, offering a robust solution for controllable Lombard TTS for any speaker.
- Abstract(参考訳): ロンバルド効果は、特に雑音の多い環境や聴覚障害者に対処する際に、自然コミュニケーションにおいて重要な役割を果たす。
学習中に明示的なロンバルドデータを必要とすることなく、任意の話者に対してロンバルド音声を合成できる制御可能なテキスト音声合成システム(TTS)を提案する。
提案手法では,大規模で韻律的に多様なデータセットから学習したスタイル埋め込みを活用し,主成分分析(PCA)を用いてLombard属性との相関を解析する。
関連するPCAコンポーネントをシフトすることで、スタイル埋め込みを操作し、TSモデルに組み込んで、所望のロンバルドレベルで音声を生成する。
評価の結果,本手法は自然性や話者識別を保ち,雑音下でのインテリジェンスを高め,プロソディをきめ細かな制御が可能であり,任意の話者に対して制御可能なロンバルドTSのための堅牢なソリューションを提供する。
関連論文リスト
- F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - Voice Conversion for Lombard Speaking Style with Implicit and Explicit Acoustic Feature Conditioning [10.486516427157058]
Lombard 話し方におけるテキスト音声合成システム(TTS)は、音声の全体的な可聴性を改善し、聴覚障害や雑音に有効である。
これらのモデルのトレーニングには大量のデータが必要である。
音声変換 (VC) は, ターゲット話者の発話スタイルにおける記録データがない場合に, TTS システムの訓練に有用な拡張手法であることが示されている。
論文 参考訳(メタデータ) (2025-07-12T14:57:04Z) - ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control [50.27383290553548]
ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。
ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech
Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。
本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。
主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Whispered and Lombard Neural Speech Synthesis [6.117432319400054]
合成音声が提示される環境を考慮して、テキストから音声までのシステムが望ましい。
そこで我々は,様々な話し方,すなわち正規語,ロンバルド語,ささやき声を提示し,比較した。
論文 参考訳(メタデータ) (2021-01-13T19:22:11Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。