論文の概要: Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.14417v1
- Date: Tue, 20 Jan 2026 19:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.131072
- Title: Quantifying Speaker Embedding Phonological Rule Interactions in Accented Speech Synthesis
- Title(参考訳): アクセント音声合成における音韻規則相互作用を包含する話者の定量化
- Authors: Thanathai Lertpetchpun, Yoonjeong Lee, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan,
- Abstract要約: アクセント付き音声合成における話者埋め込みと言語的に動機付けられた音韻規則の相互作用を分析する。
実験により、規則と埋め込みを組み合わせることで、より真正なアクセントが得られることが示された。
本研究は,アクセント制御のためのレバーとして,および音声生成における歪み評価のための枠組みとして,ルールを強調した。
- 参考スコア(独自算出の注目度): 44.55147169458465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.
- Abstract(参考訳): 英語を含む多くの言語は方言やアクセントの幅広いバリエーションを示しており、アクセント制御は柔軟なテキスト音声(TTS)モデルにとって重要な機能である。
現在のTSシステムは、特定のアクセントに関連する話者埋め込みを条件付けしてアクセント付き音声を生成するのが一般的である。
このアプローチは効果はあるものの、音色や感情などの特性をエンコードするので、解釈可能性と制御性に制限がある。
本研究では,アクセント付き音声合成における話者埋め込みと言語的に動機付けられた音韻規則の相互作用を分析する。
英語と英語をケーススタディとして用いて, 発声規則, 発声規則, 発声規則, 発声規則, 母音対応規則を実装した。
本稿では, 音素シフト率(PSR)を提案する。これは, 強埋め込みが規則に基づく変換をいかに保存するか, あるいはオーバーライドするかを定量化する新しい指標である。
実験では、規則と埋め込みを組み合わせることで、より真正なアクセントが得られる一方で、埋め込みは規則を減衰または上書きし、アクセントと話者のアイデンティティの絡み合いを明らかにする。
本研究は,アクセント制御のためのレバーとして,および音声生成における歪み評価のための枠組みとして,ルールを強調した。
関連論文リスト
- LASPA: Language Agnostic Speaker Disentanglement with Prefix-Tuned Cross-Attention [2.199918533021483]
アクセント、音声解剖学、言語音声構造などの声質特性の重複は、言語情報と話者情報の分離を複雑にする。
これらのコンポーネントの分離は、話者認識の精度を大幅に向上させる。
そこで本稿では,接頭辞付きクロスアテンションを通じて共同学習を統合する,新しい非絡み合い学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:31Z) - DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech [14.323313455208183]
マルチレベル変分オートエンコーダ(ML-VAE)とベクトル量子化(VQ)を用いたアンサングル話者とアクセント表現の新しい手法を提案する。
提案手法は、話者とアクセントの特徴を効果的に分離する難しさに対処し、合成音声のよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-10-17T08:51:46Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。