論文の概要: Technical report: Impact of Duration Prediction on Speaker-specific TTS for Indian Languages
- arxiv url: http://arxiv.org/abs/2507.16875v1
- Date: Tue, 22 Jul 2025 09:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.708751
- Title: Technical report: Impact of Duration Prediction on Speaker-specific TTS for Indian Languages
- Title(参考訳): 日時予測がインド語話者特化TTSに及ぼす影響
- Authors: Isha Pandey, Pranav Gaikwad, Amruta Parulekar, Ganesh Ramakrishnan,
- Abstract要約: 本研究では,非自己回帰型連続正規化フロー(CNF)に基づく音声モデルを,公開言語データを用いて学習する。
ゼロショット・話者固有生成のための複数の継続時間予測戦略を評価する。
- 参考スコア(独自算出の注目度): 16.782842482372427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality speech generation for low-resource languages, such as many Indian languages, remains a significant challenge due to limited data and diverse linguistic structures. Duration prediction is a critical component in many speech generation pipelines, playing a key role in modeling prosody and speech rhythm. While some recent generative approaches choose to omit explicit duration modeling, often at the cost of longer training times. We retain and explore this module to better understand its impact in the linguistically rich and data-scarce landscape of India. We train a non-autoregressive Continuous Normalizing Flow (CNF) based speech model using publicly available Indian language data and evaluate multiple duration prediction strategies for zero-shot, speaker-specific generation. Our comparative analysis on speech-infilling tasks reveals nuanced trade-offs: infilling based predictors improve intelligibility in some languages, while speaker-prompted predictors better preserve speaker characteristics in others. These findings inform the design and selection of duration strategies tailored to specific languages and tasks, underscoring the continued value of interpretable components like duration prediction in adapting advanced generative architectures to low-resource, multilingual settings.
- Abstract(参考訳): 低リソース言語(例えば多くのインド語)の高品質な音声生成は、限られたデータと多様な言語構造のために依然として重要な課題である。
時間予測は多くの音声生成パイプラインにおいて重要な要素であり、韻律と発声リズムをモデル化する上で重要な役割を果たしている。
最近の生成的アプローチでは、明示的な持続時間モデリングを省略することを選択しているが、多くの場合、長いトレーニング時間を犠牲にしている。
このモジュールはインドにおける言語学的に豊かでデータに精通した風景において、その影響をよりよく理解するために保持し、探索する。
本研究では,非自己回帰型連続正規化フロー(CNF)に基づく音声モデルを,公用言語データを用いて学習し,ゼロショット・話者固有生成のための複数の継続予測戦略を評価する。
入力に基づく予測器は、一部の言語におけるインテリジェンスを改善する一方、話者が提案する予測器は、他の言語における話者特性をよりよく保存する。
これらの知見は、特定の言語やタスクに合わせた時間戦略の設計と選択を示唆し、高度な生成アーキテクチャを低リソースで多言語的な設定に適応させる際に、時間予測のような解釈可能なコンポーネントの継続的な価値を裏付けるものである。
関連論文リスト
- A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文 参考訳(メタデータ) (2025-07-21T06:20:27Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。