論文の概要: Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
- arxiv url: http://arxiv.org/abs/2506.00832v1
- Date: Sun, 01 Jun 2025 04:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.691523
- Title: Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models
- Title(参考訳): TTSモデルにおけるポストホックプロソディと誤認識補正のためのファクトファクトアクティベーション編集
- Authors: Kyowoon Lee, Artyom Stitsyuk, Gunu Jho, Inchul Hwang, Jaesik Choi,
- Abstract要約: 既存の韻律操作のアプローチは、しばしば特別なモジュールや追加の訓練に依存し、ポストホック調整の能力を制限する。
本稿では,韻律と発音のポストホック制御を実現するために,事前学習されたTSモデルの内部表現を操作するモデル非依存の手法であるCounterfactual Activation Editingを紹介する。
実験の結果,提案手法は韻律的特徴を効果的に調整し,合成品質を保ちながら誤認識を補正することがわかった。
- 参考スコア(独自算出の注目度): 19.852233854729235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Speech (TTS) have significantly improved speech naturalness, increasing the demand for precise prosody control and mispronunciation correction. Existing approaches for prosody manipulation often depend on specialized modules or additional training, limiting their capacity for post-hoc adjustments. Similarly, traditional mispronunciation correction relies on grapheme-to-phoneme dictionaries, making it less practical in low-resource settings. We introduce Counterfactual Activation Editing, a model-agnostic method that manipulates internal representations in a pre-trained TTS model to achieve post-hoc control of prosody and pronunciation. Experimental results show that our method effectively adjusts prosodic features and corrects mispronunciations while preserving synthesis quality. This opens the door to inference-time refinement of TTS outputs without retraining, bridging the gap between pre-trained TTS models and editable speech synthesis.
- Abstract(参考訳): 最近のTTS(Text-to-Speech)の進歩は、音声の自然性を大幅に向上させ、正確な韻律制御と発音補正の需要を増大させた。
既存の韻律操作のアプローチは、しばしば特別なモジュールや追加の訓練に依存し、ポストホック調整の能力を制限する。
同様に、従来の発音誤り訂正は、低リソース環境では実用的でないグラファイム-音素辞書に依存している。
本稿では,韻律と発音のポストホック制御を実現するために,事前学習されたTSモデルの内部表現を操作するモデル非依存の手法であるCounterfactual Activation Editingを紹介する。
実験の結果,提案手法は韻律的特徴を効果的に調整し,合成品質を保ちながら誤認識を補正することがわかった。
これにより、事前訓練されたTSモデルと編集可能な音声合成の間のギャップを埋めることなく、TS出力の推論時改善への扉を開くことができる。
関連論文リスト
- MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Aligner-Guided Training Paradigm: Advancing Text-to-Speech Models with Aligner Guided Duration [13.713209707407712]
本稿では,TASモデルの前にアライメント器をトレーニングすることにより,正確な時間ラベリングを優先する新しいAligner-Guided Training Paradigmを提案する。
実験の結果,単語誤り率を最大16%向上させることができ,音素・音調アライメントを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:39:12Z) - Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis [33.909582975045545]
TTSモデルの性能向上のための音素拡張言語モデリング手法を提案する。
我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。
論文 参考訳(メタデータ) (2024-06-04T06:43:34Z) - A Study on Altering the Latent Space of Pretrained Text to Speech Models
for Improved Expressiveness [0.0]
本稿では,VAE ベースの TTS モデルで作業する場合の課題を特定し,潜時音声の特徴を変化させるための画像と画像の異なる手法を評価する。
本研究は,RTSシステムに表現性制御を付加することの複雑さと今後の研究への道を開くことに関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-11-17T13:07:00Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。