論文の概要: VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2505.20794v1
- Date: Tue, 27 May 2025 06:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.459281
- Title: VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion
- Title(参考訳): VibE-SVC: 歌声変換のための高周波F0パターンを用いたビブラート抽出
- Authors: Joon-Seung Choi, Dong-Min Byun, Hyung-Seok Oh, Seong-Whan Lee,
- Abstract要約: VibESVCは、ヴィブラートを明示的に抽出し操作する制御可能な歌声変換モデルである。
実験の結果,VibE-SVCは話者の類似性を保ちながら歌唱スタイルを効果的に変換することがわかった。
- 参考スコア(独自算出の注目度): 24.336598771550157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Controlling singing style is crucial for achieving an expressive and natural singing voice. Among the various style factors, vibrato plays a key role in conveying emotions and enhancing musical depth. However, modeling vibrato remains challenging due to its dynamic nature, making it difficult to control in singing voice conversion. To address this, we propose VibESVC, a controllable singing voice conversion model that explicitly extracts and manipulates vibrato using discrete wavelet transform. Unlike previous methods that model vibrato implicitly, our approach decomposes the F0 contour into frequency components, enabling precise transfer. This allows vibrato control for enhanced flexibility. Experimental results show that VibE-SVC effectively transforms singing styles while preserving speaker similarity. Both subjective and objective evaluations confirm high-quality conversion.
- Abstract(参考訳): 歌い方を制御することは、表現力と自然な歌声を達成するために不可欠である。
様々なスタイルの要素の中で、ビブラートは感情の伝達や音楽の深度向上に重要な役割を果たしている。
しかし、ビブラートをモデル化することは、そのダイナミックな性質から依然として困難であり、歌声変換の制御が困難である。
そこで本研究では、離散ウェーブレット変換を用いてビブラートを明示的に抽出・操作する、制御可能な歌声変換モデルであるVibESVCを提案する。
ビブラートを暗黙的にモデル化する従来の手法とは異なり、我々の手法はF0輪郭を周波数成分に分解し、正確な転送を可能にする。
これにより、柔軟性を向上させるためのビブラート制御が可能になる。
実験の結果,VibE-SVCは話者の類似性を保ちながら歌唱スタイルを効果的に変換することがわかった。
主観的評価と客観的評価の両方が高品質な変換を確認している。
関連論文リスト
- Fast-VGAN: Lightweight Voice Conversion with Explicit Control of F0 and Duration Parameters [7.865191493201841]
ピッチ、持続時間、発話速度などの音声特性の制御は、音声変換の分野において重要な課題である。
本稿では、基本周波数(F0)、音素配列、強度、話者識別を改良する手段を提供することを目的とした畳み込みニューラルネットワークに基づくアプローチを提案する。
提案手法は,高い可知性と話者類似性を維持しつつ,高い柔軟性を提供することを示す。
論文 参考訳(メタデータ) (2025-07-07T09:36:00Z) - TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Effects of Convolutional Autoencoder Bottleneck Width on StarGAN-based
Singing Technique Conversion [2.2221991003992967]
歌唱技法変換(Singing Technique conversion、STC)とは、ある音声技術から別の音声技術へ変換する作業を指す。
以前のSTC研究や歌唱音声変換の研究は、畳み込みオートエンコーダ(CAE)を変換に用いている。
我々は WORLD vocoder 表現と CAE アーキテクチャを利用した GAN ベースのマルチドメイン STC システムを構築した。
論文 参考訳(メタデータ) (2023-08-19T14:13:28Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。