論文の概要: DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching
- arxiv url: http://arxiv.org/abs/2508.05978v1
- Date: Fri, 08 Aug 2025 03:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.059196
- Title: DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching
- Title(参考訳): DAFMSVC:デュアルアテンション機構とフローマッチングを用いたワンショット歌声変換
- Authors: Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu,
- Abstract要約: Singing Voice Conversionの鍵となる課題は、音質を損なうことなくソースオーディオに、目に見えないスピーカーの音色を適応させることだ。
そこで本研究では,ソースオーディオからの自己教師付き学習機能を,ターゲットオーディオから最も近いSSL機能に置き換えるDAFMSVCを提案する。
また、話者埋め込み、メロディ、および言語内容の適応的な融合のための二重のクロスアテンション機構も組み込まれている。
- 参考スコア(独自算出の注目度): 17.823734573531
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Singing Voice Conversion (SVC) transfers a source singer's timbre to a target while keeping melody and lyrics. The key challenge in any-to-any SVC is adapting unseen speaker timbres to source audio without quality degradation. Existing methods either face timbre leakage or fail to achieve satisfactory timbre similarity and quality in the generated audio. To address these challenges, we propose DAFMSVC, where the self-supervised learning (SSL) features from the source audio are replaced with the most similar SSL features from the target audio to prevent timbre leakage. It also incorporates a dual cross-attention mechanism for the adaptive fusion of speaker embeddings, melody, and linguistic content. Additionally, we introduce a flow matching module for high quality audio generation from the fused features. Experimental results show that DAFMSVC significantly enhances timbre similarity and naturalness, outperforming state-of-the-art methods in both subjective and objective evaluations.
- Abstract(参考訳): SVC(Singing Voice Conversion)は、メロディと歌詞を維持しながら、ソースシンガーの音色をターゲットに転送する。
あらゆるSVCの鍵となる課題は、品質を損なうことなく、未確認のスピーカーの音色をソースオーディオに適応させることだ。
既存の方法は、音色漏れに直面するか、あるいは、生成された音声の音色類似性や品質を満足できないかのいずれかである。
これらの課題に対処するため、DAFMSVCを提案し、ソースオーディオの自己教師付き学習(SSL)機能を、ターゲットオーディオの最もよく似たSSL機能に置き換えて、音色漏れを防止する。
また、話者埋め込み、メロディ、および言語内容の適応的な融合のための二重のクロスアテンション機構も組み込まれている。
さらに,融合した特徴から高品質な音声を生成するためのフローマッチングモジュールも導入する。
実験の結果,DAFMSVCは音色類似性と自然性を著しく向上し,主観的・客観的評価において最先端の手法よりも優れていた。
関連論文リスト
- MuteSwap: Visual-informed Silent Video Identity Conversion [18.395223784732806]
我々はSilent Face-based Voice Conversion (SFVC)を紹介する。
SFVCは、視覚的手がかりのみを用いて、理解不能な音声を生成し、アイデンティティを変換する。
MuteSwapは、相互モダリティのアイデンティティを整合させるために、対照的に学習する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-01T07:13:34Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。
実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Singing Voice Conversion with Accompaniment Using Self-Supervised Representation-Based Melody Features [15.77234185655295]
メロディ保存は歌声変換(SVC)に不可欠である
多くのシナリオでは、オーディオにはしばしばバックグラウンド音楽(BGM)が伴い、これは音の歪みを引き起こし、メロディやその他の重要な特徴の抽出を妨げる。
自己教師付き表現に基づくメロディ特徴を用いた新しいSVC手法を導入し,BGMの存在下でのメロディモデリング精度を向上させる。
論文 参考訳(メタデータ) (2025-02-07T07:46:19Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。