論文の概要: MixedG2P-T5: G2P-free Speech Synthesis for Mixed-script texts using Speech Self-Supervised Learning and Language Model
- arxiv url: http://arxiv.org/abs/2509.01391v1
- Date: Mon, 01 Sep 2025 11:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.66719
- Title: MixedG2P-T5: G2P-free Speech Synthesis for Mixed-script texts using Speech Self-Supervised Learning and Language Model
- Title(参考訳): MixedG2P-T5: 音声認識学習と言語モデルを用いた混合テキストのG2Pフリー音声合成
- Authors: Joonyong Park, Daisuke Saito, Nobuaki Minematsu,
- Abstract要約: 本研究では,従来のG2P変換に代わる音声合成手法を提案する。
我々はT5エンコーダを訓練し、混合テキストから擬似言語ラベルを生成する。
我々のモデルは従来のG2Pベースの音声合成システムの性能と一致し、自然な言語的・パラ言語的特徴を保った音声を合成することができる。
- 参考スコア(独自算出の注目度): 17.060696046727962
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study presents a novel approach to voice synthesis that can substitute the traditional grapheme-to-phoneme (G2P) conversion by using a deep learning-based model that generates discrete tokens directly from speech. Utilizing a pre-trained voice SSL model, we train a T5 encoder to produce pseudo-language labels from mixed-script texts (e.g., containing Kanji and Kana). This method eliminates the need for manual phonetic transcription, reducing costs and enhancing scalability, especially for large non-transcribed audio datasets. Our model matches the performance of conventional G2P-based text-to-speech systems and is capable of synthesizing speech that retains natural linguistic and paralinguistic features, such as accents and intonations.
- Abstract(参考訳): 本研究では,音声から個別のトークンを生成する深層学習モデルを用いて,従来のG2P変換を代替する音声合成手法を提案する。
事前訓練された音声SSLモデルを用いて、T5エンコーダをトレーニングし、混合テキスト(漢字と仮名を含む例)から擬似言語ラベルを生成する。
この方法は、特に大規模な非転写音声データセットにおいて、手動による音声書き起こしの必要性を排除し、コストを削減し、スケーラビリティを向上する。
本モデルは従来のG2Pベースの音声合成システムの性能と一致し,アクセントやイントネーションなどの自然な言語的・パラ言語的特徴を保った音声を合成することができる。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。