論文の概要: Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
- arxiv url: http://arxiv.org/abs/2506.00832v1
- Date: Sun, 01 Jun 2025 04:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.691523
- Title: Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
- Title(参考訳): TTSモデルにおけるポストホックプロソディと誤認識補正のためのファクトファクトアクティベーション編集
- Authors: Kyowoon Lee, Artyom Stitsyuk, Gunu Jho, Inchul Hwang, Jaesik Choi,
- Abstract要約: 既存の韻律操作のアプローチは、しばしば特別なモジュールや追加の訓練に依存し、ポストホック調整の能力を制限する。
本稿では,韻律と発音のポストホック制御を実現するために,事前学習されたTSモデルの内部表現を操作するモデル非依存の手法であるCounterfactual Activation Editingを紹介する。
実験の結果,提案手法は韻律的特徴を効果的に調整し,合成品質を保ちながら誤認識を補正することがわかった。
- 参考スコア(独自算出の注目度): 19.852233854729235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) have significantly improved speech naturalness, increasing the demand for precise prosody control and mispronunciation correction. Existing approaches for prosody manipulation often depend on specialized modules or additional training, limiting their capacity for post-hoc adjustments. Similarly, traditional mispronunciation correction relies on grapheme-to-phoneme dictionaries, making it less practical in low-resource settings. We introduce Counterfactual Activation Editing, a model-agnostic method that manipulates internal representations in a pre-trained TTS model to achieve post-hoc control of prosody and pronunciation. Experimental results show that our method effectively adjusts prosodic features and corrects mispronunciations while preserving synthesis quality. This opens the door to inference-time refinement of TTS outputs without retraining, bridging the gap between pre-trained TTS models and editable speech synthesis.
- Abstract(参考訳): 最近のTTS(Text-to-Speech)の進歩は、音声の自然性を大幅に向上させ、正確な韻律制御と発音補正の需要を増大させた。
既存の韻律操作のアプローチは、しばしば特別なモジュールや追加の訓練に依存し、ポストホック調整の能力を制限する。
同様に、従来の発音誤り訂正は、低リソース環境では実用的でないグラファイム-音素辞書に依存している。
本稿では,韻律と発音のポストホック制御を実現するために,事前学習されたTSモデルの内部表現を操作するモデル非依存の手法であるCounterfactual Activation Editingを紹介する。
実験の結果,提案手法は韻律的特徴を効果的に調整し,合成品質を保ちながら誤認識を補正することがわかった。
これにより、事前訓練されたTSモデルと編集可能な音声合成の間のギャップを埋めることなく、TS出力の推論時改善への扉を開くことができる。
関連論文リスト
- MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Aligner-Guided Training Paradigm: Advancing Text-to-Speech Models with Aligner Guided Duration [13.713209707407712]
本稿では,TASモデルの前にアライメント器をトレーニングすることにより,正確な時間ラベリングを優先する新しいAligner-Guided Training Paradigmを提案する。
実験の結果,単語誤り率を最大16%向上させることができ,音素・音調アライメントを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:39:12Z) - Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis [33.909582975045545]
TTSモデルの性能向上のための音素拡張言語モデリング手法を提案する。
我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。
論文 参考訳(メタデータ) (2024-06-04T06:43:34Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。