論文の概要: Singing Voice Conversion with Accompaniment Using Self-Supervised Representation-Based Melody Features
- arxiv url: http://arxiv.org/abs/2502.04722v1
- Date: Fri, 07 Feb 2025 07:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:05.786573
- Title: Singing Voice Conversion with Accompaniment Using Self-Supervised Representation-Based Melody Features
- Title(参考訳): 自己教師付き表現に基づくメロディ特徴を用いた伴奏による歌声変換
- Authors: Wei Chen, Binzhu Sha, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu,
- Abstract要約: メロディ保存は歌声変換(SVC)に不可欠である
多くのシナリオでは、オーディオにはしばしばバックグラウンド音楽(BGM)が伴い、これは音の歪みを引き起こし、メロディやその他の重要な特徴の抽出を妨げる。
自己教師付き表現に基づくメロディ特徴を用いた新しいSVC手法を導入し,BGMの存在下でのメロディモデリング精度を向上させる。
- 参考スコア(独自算出の注目度): 15.77234185655295
- License:
- Abstract: Melody preservation is crucial in singing voice conversion (SVC). However, in many scenarios, audio is often accompanied with background music (BGM), which can cause audio distortion and interfere with the extraction of melody and other key features, significantly degrading SVC performance. Previous methods have attempted to address this by using more robust neural network-based melody extractors, but their performance drops sharply in the presence of complex accompaniment. Other approaches involve performing source separation before conversion, but this often introduces noticeable artifacts, leading to a significant drop in conversion quality and increasing the user's operational costs. To address these issues, we introduce a novel SVC method that uses self-supervised representation-based melody features to improve melody modeling accuracy in the presence of BGM. In our experiments, we compare the effectiveness of different self-supervised learning (SSL) models for melody extraction and explore for the first time how SSL benefits the task of melody extraction. The experimental results demonstrate that our proposed SVC model significantly outperforms existing baseline methods in terms of melody accuracy and shows higher similarity and naturalness in both subjective and objective evaluations across noisy and clean audio environments.
- Abstract(参考訳): メロディ保存は歌声変換(SVC)において重要である。
しかし、多くのシナリオでは、オーディオにしばしばバックグラウンド音楽(BGM)が伴い、これは音の歪みを引き起こし、メロディや他の重要な特徴の抽出を妨害し、SVCの性能を著しく低下させる。
従来の手法では、より堅牢なニューラルネットワークベースのメロディ抽出器を使用してこの問題に対処しようとしたが、それらの性能は複雑な伴奏の存在下で急激に低下した。
他のアプローチでは、変換の前にソース分離を実行するが、これはしばしば顕著な成果物を導入し、変換品質が大幅に低下し、ユーザの運用コストが増大する。
これらの課題に対処するために,自己教師付き表現に基づくメロディ特徴を用いた新しいSVC手法を導入し,BGMの存在下でのメロディモデリング精度を向上させる。
実験では,メロディ抽出における異なる自己教師付き学習(SSL)モデルの有効性を比較し,SSLがメロディ抽出の課題にどのように貢献するかを初めて検討した。
実験の結果,提案したSVCモデルはメロディの精度で既存のベースライン法よりも優れており,騒音やクリーンな音環境における主観的評価と客観的評価の両面において高い類似性と自然性を示すことがわかった。
関連論文リスト
- SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文 参考訳(メタデータ) (2023-02-27T11:26:57Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。