論文の概要: VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2505.20794v1
- Date: Tue, 27 May 2025 06:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.459281
- Title: VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
- Title(参考訳): VibE-SVC: 歌声変換のための高周波F0パターンを用いたビブラート抽出
- Authors: Joon-Seung Choi, Dong-Min Byun, Hyung-Seok Oh, Seong-Whan Lee,
- Abstract要約: VibESVCは、ヴィブラートを明示的に抽出し操作する制御可能な歌声変換モデルである。
実験の結果,VibE-SVCは話者の類似性を保ちながら歌唱スタイルを効果的に変換することがわかった。
- 参考スコア(独自算出の注目度): 24.336598771550157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Controlling singing style is crucial for achieving an expressive and natural singing voice. Among the various style factors, vibrato plays a key role in conveying emotions and enhancing musical depth. However, modeling vibrato remains challenging due to its dynamic nature, making it difficult to control in singing voice conversion. To address this, we propose VibESVC, a controllable singing voice conversion model that explicitly extracts and manipulates vibrato using discrete wavelet transform. Unlike previous methods that model vibrato implicitly, our approach decomposes the F0 contour into frequency components, enabling precise transfer. This allows vibrato control for enhanced flexibility. Experimental results show that VibE-SVC effectively transforms singing styles while preserving speaker similarity. Both subjective and objective evaluations confirm high-quality conversion.
- Abstract(参考訳): 歌い方を制御することは、表現力と自然な歌声を達成するために不可欠である。
様々なスタイルの要素の中で、ビブラートは感情の伝達や音楽の深度向上に重要な役割を果たしている。
しかし、ビブラートをモデル化することは、そのダイナミックな性質から依然として困難であり、歌声変換の制御が困難である。
そこで本研究では、離散ウェーブレット変換を用いてビブラートを明示的に抽出・操作する、制御可能な歌声変換モデルであるVibESVCを提案する。
ビブラートを暗黙的にモデル化する従来の手法とは異なり、我々の手法はF0輪郭を周波数成分に分解し、正確な転送を可能にする。
これにより、柔軟性を向上させるためのビブラート制御が可能になる。
実験の結果,VibE-SVCは話者の類似性を保ちながら歌唱スタイルを効果的に変換することがわかった。
主観的評価と客観的評価の両方が高品質な変換を確認している。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。