論文の概要: A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion
- arxiv url: http://arxiv.org/abs/2302.13678v1
- Date: Mon, 27 Feb 2023 11:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:56:37.660886
- Title: A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion
- Title(参考訳): 歌唱音声変換における遅延レグレッタ損失の比較分析
- Authors: Brendan O'Connor, Simon Dixon
- Abstract要約: シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
- 参考スコア(独自算出の注目度): 15.691936529849539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research has shown that established techniques for spoken voice
conversion (VC) do not perform as well when applied to singing voice conversion
(SVC). We propose an alternative loss component in a loss function that is
otherwise well-established among VC tasks, which has been shown to improve our
model's SVC performance. We first trained a singer identity embedding (SIE)
network on mel-spectrograms of singer recordings to produce singer-specific
variance encodings using contrastive learning. We subsequently trained a
well-known autoencoder framework (AutoVC) conditioned on these SIEs, and
measured differences in SVC performance when using different latent regressor
loss components. We found that using this loss w.r.t. SIEs leads to better
performance than w.r.t. bottleneck embeddings, where converted audio is more
natural and specific towards target singers. The inclusion of this loss
component has the advantage of explicitly forcing the network to reconstruct
with timbral similarity, and also negates the effect of poor disentanglement in
AutoVC's bottleneck embeddings. We demonstrate peculiar diversity between
computational and human evaluations on singer-converted audio clips, which
highlights the necessity of both. We also propose a pitch-matching mechanism
between source and target singers to ensure these evaluations are not
influenced by differences in pitch register.
- Abstract(参考訳): 従来の研究では、歌唱音声変換(SVC)に適用した場合、音声変換(VC)の確立した手法がうまく機能しないことが示された。
本稿では,VCタスク間でよく確立されている損失関数の代替損失成分を提案する。
まず,シンガーレコードのメルスペクトログラムを用いたシンガーid埋め込み(sie)ネットワークを訓練し,コントラスト学習を用いてシンガー固有分散符号化を作成した。
その後、これらのSIEを前提としたよく知られたオートエンコーダフレームワーク(AutoVC)を訓練し、異なる遅延回帰器損失成分を用いた場合のSVC性能の違いを測定した。
この損失 w.r.t. SIEs を用いることで、w.r.t.のボトルネック埋め込みよりもパフォーマンスが向上することを発見した。
この損失成分を包含することは、ネットワークに鼓膜的類似性による再構築を明示的に強制する利点があり、AutoVCのボトルネック埋め込みにおける不整合の影響を否定する。
シンガー変換音声クリップにおける計算と人間の評価の特異な多様性を示し,両者の必要性を強調する。
また,これらの評価がピッチレジスタの違いに影響を受けないように,音源とターゲットシンガー間のピッチマッチング機構を提案する。
関連論文リスト
- SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。