論文の概要: Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters
- arxiv url: http://arxiv.org/abs/2508.18006v1
- Date: Mon, 25 Aug 2025 13:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.791189
- Title: Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters
- Title(参考訳): 適応型軽量テキスト音声に対する未知話者と言語適応
- Authors: Alessio Falai, Ziyao Zhang, Akos Gangoly,
- Abstract要約: アダプタのレンズを用いた言語間テキスト音声合成について検討する。
その結果,言語固有の情報や話者固有の情報の学習において,アダプタの有効性が示された。
また,アダプタ配置,構成,使用話者数の影響について考察した。
- 参考スコア(独自算出の注目度): 3.7987175642397832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate cross-lingual Text-To-Speech (TTS) synthesis through the lens of adapters, in the context of lightweight TTS systems. In particular, we compare the tasks of unseen speaker and language adaptation with the goal of synthesising a target voice in a target language, in which the target voice has no recordings therein. Results from objective evaluations demonstrate the effectiveness of adapters in learning language-specific and speaker-specific information, allowing pre-trained models to learn unseen speaker identities or languages, while avoiding catastrophic forgetting of the original model's speaker or language information. Additionally, to measure how native the generated voices are in terms of accent, we propose and validate an objective metric inspired by mispronunciation detection techniques in second-language (L2) learners. The paper also provides insights into the impact of adapter placement, configuration and the number of speakers used.
- Abstract(参考訳): 本稿では,TTSシステムにおいて,アダプタのレンズを用いた言語間テキスト音声合成(TTS)について検討する。
特に、未確認話者と言語適応の課題と、対象音声に記録がないターゲット言語で対象音声を合成することの目標とを比較した。
客観評価の結果は、言語固有の情報や話者固有の情報を学習する際のアダプタの有効性を示し、事前学習したモデルは、元のモデルの話者情報や言語情報の破滅的な忘れを回避しながら、見知らぬ話者のアイデンティティや言語を学習することができる。
さらに、生成した音声のアクセントのネイティブ性を評価するために、第二言語学習者(L2)における誤発音検出技術に触発された客観的な指標を提案し、検証する。
また,アダプタ配置,構成,使用話者数の影響について考察した。
関連論文リスト
- Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Language translation, and change of accent for speech-to-speech task using diffusion model [16.436756456803774]
音声音声変換(S2ST)は、ある言語における音声入力を別の言語における音声出力に変換することを目的としている。
本稿では,アクセントの同時翻訳とアクセント変化のための統一的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-04T23:23:46Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。