論文の概要: RepeaTTS: Towards Feature Discovery through Repeated Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.08012v1
- Date: Sat, 05 Jul 2025 10:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.086736
- Title: RepeaTTS: Towards Feature Discovery through Repeated Fine-Tuning
- Title(参考訳): RepeaTTS: 繰り返し微調整による特徴発見を目指して
- Authors: Atli Sigurgeirsson, Simon King,
- Abstract要約: PromptベースのText-To-Speechモデルでは、自然言語による発話率や知覚性などの音声のさまざまな側面を制御できる。
制御は訓練中にモデルに露出する音響的特徴に限られており、他方では柔軟すぎる:同じ入力はコーパス統計に反映される制御不能な変動をもたらす。
制御不能なモデルの分散を利用して,これらの問題に同時に対処する新しい微調整方式について検討する。
- 参考スコア(独自算出の注目度): 11.547937373256921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A Prompt-based Text-To-Speech model allows a user to control different aspects of speech, such as speaking rate and perceived gender, through natural language instruction. Although user-friendly, such approaches are on one hand constrained: control is limited to acoustic features exposed to the model during training, and too flexible on the other: the same inputs yields uncontrollable variation that are reflected in the corpus statistics. We investigate a novel fine-tuning regime to address both of these issues at the same time by exploiting the uncontrollable variance of the model. Through principal component analysis of thousands of synthesised samples, we determine latent features that account for the highest proportion of the output variance and incorporate them as new labels for secondary fine-tuning. We evaluate the proposed methods on two models trained on an expressive Icelandic speech corpus, one with emotional disclosure and one without. In the case of the model without emotional disclosure, the method yields both continuous and discrete features that improve overall controllability of the model.
- Abstract(参考訳): PromptベースのText-To-Speechモデルでは、自然言語による発話率や知覚性などの音声のさまざまな側面を制御することができる。
制御は訓練中にモデルに露出する音響的特徴に限られており、他方では柔軟すぎる:同じ入力はコーパス統計に反映される制御不能な変動をもたらす。
制御不能なモデルの分散を利用して,これらの問題に同時に対処する新しい微調整方式について検討する。
何千もの合成試料の主成分分析により, 出力分散の最も高い割合を占める潜時特性を決定, 二次微調整のための新しいラベルとして組み込む。
アイスランド語音声コーパスで学習した2つのモデルについて,感情的開示を伴う1つのモデルと,それのない2つのモデルについて,提案手法の評価を行った。
感情的開示のないモデルの場合、モデル全体の制御性を改善するための連続的特徴と離散的特徴の両方が得られる。
関連論文リスト
- Investigating Stochastic Methods for Prosody Modeling in Speech Synthesis [59.68341193176134]
生成法は近年急速に進歩しているが, 発話のための表現的韻律を生成することは, 依然として困難な課題である。
本研究では, 正規化フロー, 条件付きフローマッチング, 整流フローなどの手法の有効性について検討する。
本研究の主観的・客観的評価は,人間の発話に固有の変動を捉えることによって,人間の話者と同等に自然な韻律を生成することを示す。
論文 参考訳(メタデータ) (2025-06-30T19:52:32Z) - Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。