論文の概要: Learning the Beauty in Songs: Neural Singing Voice Beautifier
- arxiv url: http://arxiv.org/abs/2202.13277v1
- Date: Sun, 27 Feb 2022 03:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 15:44:29.855019
- Title: Learning the Beauty in Songs: Neural Singing Voice Beautifier
- Title(参考訳): 歌声の美を学ぶ:ニューラルシンキング音声美容器
- Authors: Jinglin Liu, Chengxi Li, Yi Ren, Zhiying Zhu, Zhou Zhao
- Abstract要約: 我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
- 参考スコア(独自算出の注目度): 69.21263011242907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in a novel task, singing voice beautifying (SVB). Given the
singing voice of an amateur singer, SVB aims to improve the intonation and
vocal tone of the voice, while keeping the content and vocal timbre. Current
automatic pitch correction techniques are immature, and most of them are
restricted to intonation but ignore the overall aesthetic quality. Hence, we
introduce Neural Singing Voice Beautifier (NSVB), the first generative model to
solve the SVB task, which adopts a conditional variational autoencoder as the
backbone and learns the latent representations of vocal tone. In NSVB, we
propose a novel time-warping approach for pitch correction: Shape-Aware Dynamic
Time Warping (SADTW), which ameliorates the robustness of existing time-warping
approaches, to synchronize the amateur recording with the template pitch curve.
Furthermore, we propose a latent-mapping algorithm in the latent space to
convert the amateur vocal tone to the professional one. To achieve this, we
also propose a new dataset containing parallel singing recordings of both
amateur and professional versions. Extensive experiments on both Chinese and
English songs demonstrate the effectiveness of our methods in terms of both
objective and subjective metrics. Audio samples are available
at~\url{https://neuralsvb.github.io}.
- Abstract(参考訳): 我々は音声美歌(SVB)を歌う新しいタスクに興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
現在の自動ピッチ補正技術は未熟であり、そのほとんどはイントネーションに制限されているが、全体的な美的品質は無視されている。
そこで本研究では,svbタスクを解決する最初の生成モデルであるneural singing voice beautifier (nsvb)を紹介し,条件付き変分オートエンコーダをバックボーンとして活用し,発声音の潜在表現を学習する。
nsvbでは,既存の時間ウォーピング手法のロバスト性を改善する形状認識動的時間ウォーピング (sadtw) により,アマチュア記録をテンプレートピッチ曲線と同期させる新しいピッチ補正手法を提案する。
さらに,素人の声調をプロフェッショナルな声調に変換するために,潜時空間における潜時マスキングアルゴリズムを提案する。
これを実現するために,アマチュア版とプロ版の両方の並列歌唱記録を含む新しいデータセットを提案する。
中国語と英語の歌を広範に実験した結果,客観的指標と主観的指標の両方において,本手法の有効性が示された。
オーディオサンプルは~\url{https://neuralsvb.github.io}で入手できる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。