論文の概要: UtterTune: LoRA-Based Target-Language Pronunciation Edit and Control in Multilingual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2508.09767v1
- Date: Wed, 13 Aug 2025 12:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.889107
- Title: UtterTune: LoRA-Based Target-Language Pronunciation Edit and Control in Multilingual Text-to-Speech
- Title(参考訳): UtterTune: 多言語テキスト音声におけるLoRAに基づくターゲット言語発音編集と制御
- Authors: Shuhei Kato,
- Abstract要約: UtterTuneは、多言語テキスト音声システムの微調整を行う軽量適応手法である。
日本語音声の音素レベルにおける音節発音とピッチアクセントの制御を可能にする。
- 参考スコア(独自算出の注目度): 0.6961946145048322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UtterTune, a lightweight adaptation method that fine-tunes a multilingual text-to-speech (TTS) system based on a large language model (LLM) architecture, designed to enhance the controllability of pronunciation in a target language while preserving performance in others. While LLM architectures have enabled TTS models to achieve remarkable naturalness, accurately modeling grapheme-to-phoneme (G2P) mapping and prosody remains challenging, especially when the model omits an explicit G2P module and directly processes minimally encoded text (e.g., byte-pair encoding). UtterTune leverages low-rank adaptation to enable the control of segmental pronunciation and pitch accent at the phoneme level for Japanese speech, the target language in this paper, while maintaining naturalness and speaker similarity in a zero-shot setting. Objective and subjective evaluations confirm its effectiveness.
- Abstract(参考訳): UtterTuneは,大規模言語モデル(LLM)アーキテクチャに基づく多言語テキスト音声(TTS)システムを微調整し,他言語の性能を維持しつつ,対象言語における発音の制御性を向上する軽量適応手法である。
LLMアーキテクチャはTSモデルを驚くほど自然性を実現しているが、特にG2Pモジュールを省略し、最小エンコードされたテキスト(例えばバイトペアエンコーディング)を直接処理する場合、G2P(Grapheme-to-phoneme)マッピングと韻律を正確にモデル化することは困難である。
UtterTune は低ランク適応を活用し,音声の音素レベルにおける音節の発音とピッチアクセントの制御を実現する。
客観的および主観的評価は、その有効性を確認する。
関連論文リスト
- Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。
言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文 参考訳(メタデータ) (2025-04-11T06:12:57Z) - Description-based Controllable Text-to-Speech with Cross-Lingual Voice
Control [14.145510487599932]
本稿では,言語間制御機能を備えた新しい制御可能なテキスト音声合成手法を提案する。
我々は、ターゲット言語で訓練されたTSモデルと、他の言語で訓練された記述制御モデルを組み合わせて、入力されたテキスト記述をTSモデルの条件付き特徴にマッピングする。
英語と日本語のTTS実験により,本手法が両言語に対して高い自然性と制御性を実現することを示す。
論文 参考訳(メタデータ) (2024-09-26T01:08:09Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。