論文の概要: SonoEdit: Null-Space Constrained Knowledge Editing for Pronunciation Correction in LLM-Based TTS
- arxiv url: http://arxiv.org/abs/2601.17086v1
- Date: Fri, 23 Jan 2026 08:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.216837
- Title: SonoEdit: Null-Space Constrained Knowledge Editing for Pronunciation Correction in LLM-Based TTS
- Title(参考訳): SonoEdit: LLMベースのTSにおける発音補正のためのNull-Space Constrained Knowledge Editing
- Authors: Ayush Pratap Singh, Harshit Singh, Nityanand Mathur, Akshat Mandloi, Sudarshan Kamath,
- Abstract要約: 本稿では,事前訓練したTSモデルの発音誤りを再訓練せずに外科的に修正するモデル編集手法であるSanoEditを紹介する。
コストのかかる微調整や明示的な音素注入の代わりに,Null-Space Pronunciation Editingに基づく類似の代替法を提案する。
- 参考スコア(独自算出の注目度): 1.392548092257887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural text-to-speech (TTS) systems systematically mispronounce low-resource proper nouns, particularly non-English names, brands, and geographic locations, due to their underrepresentation in predominantly English training corpora. Existing solutions typically rely on expensive multilingual data collection, supervised finetuning, or manual phonetic annotation, which limits the deployment of TTS systems in linguistically diverse settings. We introduce SonoEdit, a model editing technique that surgically corrects pronunciation errors in pre-trained TTS models without retraining. Instead of costly finetuning or explicit phoneme injection, we propose a parsimonious alternative based on Null-Space Pronunciation Editing, which performs a single-shot parameter update to modify the pronunciation of specific words while provably preserving all other model behavior. We first adapt Acoustic Causal Tracing to identify the Transformer layers responsible for text-to-pronunciation mapping. We then apply Null-Space Constrained Editing to compute a closed-form weight update that corrects the target pronunciation while remaining mathematically orthogonal to the subspace governing general speech generation. This constrained update steers the model's acoustic output toward a desired pronunciation exemplar while guaranteeing zero first-order change on a preserved speech corpus.
- Abstract(参考訳): ニューラルテキスト音声システム(TTS)は、主に英語のトレーニングコーパスで不足しているため、低リソースの固有名詞、特にノンイングリッシュな名前、ブランド、地理的位置を体系的に誤認する。
既存のソリューションは通常、高価な多言語データ収集、教師付き微調整、手動音素アノテーションに依存しており、言語的に多様な設定でTSシステムの配置を制限する。
本稿では,事前訓練したTSモデルの発音誤りを再訓練せずに外科的に修正するモデル編集手法であるSanoEditを紹介する。
コストのかかる微調整や明示的な音素注入の代わりに,Null-Space Pronunciation Editingに基づく類似の代替案を提案する。
まず,テキストから発音へのマッピングに責任を持つトランスフォーマー層を特定するために,音響因果追跡を適用した。
次に,Null-Space Constrained Editing を適用して,正規音声生成を統括する部分空間に数学的に直交したまま,ターゲット発音を補正するクローズドフォームの重み付けを演算する。
この制約付き更新は、保存された音声コーパスの1次変化をゼロにしながら、モデルの音響出力を所望の発音例に向けて操縦する。
関連論文リスト
- Counterfactual Activation Editing for Post-hoc Prosody and Mispronunciation Correction in TTS Models [19.852233854729235]
既存の韻律操作のアプローチは、しばしば特別なモジュールや追加の訓練に依存し、ポストホック調整の能力を制限する。
本稿では,韻律と発音のポストホック制御を実現するために,事前学習されたTSモデルの内部表現を操作するモデル非依存の手法であるCounterfactual Activation Editingを紹介する。
実験の結果,提案手法は韻律的特徴を効果的に調整し,合成品質を保ちながら誤認識を補正することがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:33:37Z) - FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。