Fugu-MT 論文翻訳(概要): ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

論文の概要: ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

arxiv url: http://arxiv.org/abs/2603.04219v1
Date: Wed, 04 Mar 2026 16:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.390516
Title: ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
Title（参考訳）: ZeSTA:データ効率の良いパーソナライズされた音声合成のためのドメイン定義学習によるゼロショットTTS強化
Authors: Youngwon Choi, Jinwoo Oh, Hwayeon Kim, Hyeonyu Kim,
Abstract要約: 低リソースなパーソナライズされた音声合成のためのデータ拡張源としてゼロショット音声合成(ZS-TTS)を用いることを検討した。実音声と合成音声を区別するシンプルなドメイン条件学習フレームワークZesTAを提案する。
参考スコア（独自算出の注目度）: 3.1848820580333737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the use of zero-shot text-to-speech (ZS-TTS) as a data augmentation source for low-resource personalized speech synthesis. While synthetic augmentation can provide linguistically rich and phonetically diverse speech, naively mixing large amounts of synthetic speech with limited real recordings often leads to speaker similarity degradation during fine-tuning. To address this issue, we propose ZeSTA, a simple domain-conditioned training framework that distinguishes real and synthetic speech via a lightweight domain embedding, combined with real-data oversampling to stabilize adaptation under extremely limited target data, without modifying the base architecture. Experiments on LibriTTS and an in-house dataset with two ZS-TTS sources demonstrate that our approach improves speaker similarity over naive synthetic augmentation while preserving intelligibility and perceptual quality.
Abstract（参考訳）: 低リソースなパーソナライズされた音声合成のためのデータ拡張源としてゼロショット音声合成(ZS-TTS)を用いることを検討した。合成拡張は言語的にリッチで音声学的に多様な音声を提供するが、大量の合成音声と限られた実録音を鼻で混ぜることで、微調整中に話者の類似度が劣化することが多い。この問題に対処するために,ZeSTAを提案する。ZeSTAは,軽量なドメイン埋め込みによる実音声と合成音声を区別する,シンプルなドメイン条件学習フレームワークである。 LibriTTSと2つのZS-TTSソースを用いた社内データセットによる実験により,本手法は知覚能力と知覚品質を保ちながら,ナイーブな合成拡張よりも話者の類似性を向上することが示された。

関連論文リスト

Stuttering-Aware Automatic Speech Recognition for Indonesian Language [0.04666493857924358]
本稿では,繰り返しや長文を流布テキストに注入することにより,音声を合成するデータ拡張フレームワークを提案する。本稿では,この合成データを用いて,移動学習を用いたインドネシアのWhisperモデルの微調整を行う。実験により,このターゲット合成露光は,流速セグメントの性能を維持しながら,破れた音声の認識誤差を一定に低減することを示した。
論文参考訳（メタデータ） (2026-01-07T09:21:12Z)
Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech [2.5964779217812057]
Flamed-TTSは、低計算コスト、低レイテンシ、高音声忠実度と豊富な時間的多様性を強調する新しいゼロショットテキスト音声合成フレームワークである。本研究では,Flamed-TTSが最先端モデルを超え,可知性,自然性,話者の類似性,音響特性の保存,動的ペースについて検討した。
論文参考訳（メタデータ） (2025-10-03T09:36:55Z)
GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。 GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-15T01:44:56Z)
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance [9.87139502863569]
Koel-TTSは拡張エンコーダデコーダトランスフォーマーTSモデルのスイートである。拡張エンコーダデコーダトランスフォーマーTSモデルのスイートであるKoel-TTSを紹介する。
論文参考訳（メタデータ） (2025-02-07T06:47:11Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文参考訳（メタデータ） (2023-05-30T17:24:28Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。