論文の概要: LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning
- arxiv url: http://arxiv.org/abs/2507.04966v1
- Date: Mon, 07 Jul 2025 13:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.428288
- Title: LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning
- Title(参考訳): LAPS-Diff: 言語認識型韻律スタイル学習による音声合成のための拡散型フレームワーク
- Authors: Sandipan Dhar, Mayank Gupta, Preeti Rao,
- Abstract要約: LAPS-Diffは,言語認識の埋め込みと統合された拡散モデルであり,音声スタイルの指導型学習機構である。
我々はHindi SVSデータセットをキュレートし、事前訓練された言語モデルを利用して、リッチな歌詞表現のための単語と電話レベルの埋め込みを抽出する。
LAPS-Diffは,制約付きデータセットに対するSOTAモデルと比較して,生成したサンプルの品質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 4.573044937555209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Singing Voice Synthesis (SVS) has seen significant advancements in recent years due to the rapid progress of diffusion-based approaches. However, capturing vocal style, genre-specific pitch inflections, and language-dependent characteristics remains challenging, particularly in low-resource scenarios. To address this, we propose LAPS-Diff, a diffusion model integrated with language-aware embeddings and a vocal-style guided learning mechanism, specifically designed for Bollywood Hindi singing style. We curate a Hindi SVS dataset and leverage pre-trained language models to extract word and phone-level embeddings for an enriched lyrics representation. Additionally, we incorporated a style encoder and a pitch extraction model to compute style and pitch losses, capturing features essential to the naturalness and expressiveness of the synthesized singing, particularly in terms of vocal style and pitch variations. Furthermore, we utilize MERT and IndicWav2Vec models to extract musical and contextual embeddings, serving as conditional priors to refine the acoustic feature generation process further. Based on objective and subjective evaluations, we demonstrate that LAPS-Diff significantly improves the quality of the generated samples compared to the considered state-of-the-art (SOTA) model for our constrained dataset that is typical of the low resource scenario.
- Abstract(参考訳): 歌声合成(SVS)の分野は,拡散に基づくアプローチの急速な進歩により,近年顕著な進歩を遂げている。
しかし、特に低リソースシナリオにおいて、ボーカルスタイル、ジャンル固有のピッチインフレクション、言語に依存した特徴を捉えることは困難である。
そこで本研究では,ボリウッド・ヒンディの歌唱スタイルに特化して設計された,言語認識の埋め込みと音声指導型学習機構を統合した拡散モデルであるLAPS-Diffを提案する。
我々はHindi SVSデータセットをキュレートし、事前訓練された言語モデルを利用して、リッチな歌詞表現のための単語と電話レベルの埋め込みを抽出する。
さらに、スタイルエンコーダとピッチ抽出モデルを用いて、スタイルとピッチの損失を計算し、合成歌唱の自然性や表現性に不可欠な特徴を、特に声調やピッチの変動の観点から捉えた。
さらに,MERT と IndicWav2Vec モデルを用いて音楽的および文脈的埋め込みを抽出し,条件付き先行処理として音響特徴生成プロセスをさらに洗練する。
目的および主観的評価に基づき, LAPS-Diffは, 低資源シナリオに典型的な制約付きデータセットに対するSOTAモデルと比較して, 生成したサンプルの品質を著しく向上することを示した。
関連論文リスト
- SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。
低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。
大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-06-26T17:07:45Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。