Fugu-MT 論文翻訳(概要): LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling

論文の概要: LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling

arxiv url: http://arxiv.org/abs/2409.08583v1
Date: Fri, 13 Sep 2024 07:02:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 17:28:47.635869
Title: LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling
Title（参考訳）: LHQ-SVC:軽量で高品質な歌声変換モデル
Authors: Yubo Huang, Xin Lai, Muyang Ye, Anran Zhu, Zixi Wang, Jingzehua Xu, Shuai Zhang, Zhiyuan Zhou, Weijie Niu,
Abstract要約: SVC(Singing Voice Conversion)は、Voice Conversion(VC)の重要なサブフィールドとして登場した。従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。
参考スコア（独自算出の注目度）: 7.487807225162913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Singing Voice Conversion (SVC) has emerged as a significant subfield of Voice Conversion (VC), enabling the transformation of one singer's voice into another while preserving musical elements such as melody, rhythm, and timbre. Traditional SVC methods have limitations in terms of audio quality, data requirements, and computational complexity. In this paper, we propose LHQ-SVC, a lightweight, CPU-compatible model based on the SVC framework and diffusion model, designed to reduce model size and computational demand without sacrificing performance. We incorporate features to improve inference quality, and optimize for CPU execution by using performance tuning tools and parallel computing frameworks. Our experiments demonstrate that LHQ-SVC maintains competitive performance, with significant improvements in processing speed and efficiency across different devices. The results suggest that LHQ-SVC can meet
Abstract（参考訳）: SVC(Singing Voice Conversion)はVoice Conversion(VC)の重要なサブフィールドとして現れ、メロディ、リズム、音色などの音楽的要素を保存しながら、ある歌手の声を別の歌手に変換することを可能にする。従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。性能チューニングツールと並列コンピューティングフレームワークを用いて,推論品質の向上とCPU実行の最適化を実現した。我々の実験は、LHQ-SVCが競合性能を維持しており、異なるデバイス間での処理速度と効率が大幅に向上していることを示した。結果は、LHQ-SVCが満たせることを示唆している

関連論文リスト

ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。 ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文参考訳（メタデータ） (2026-02-09T14:06:03Z)
HQ-SVC: Towards High-Quality Zero-Shot Singing Voice Conversion in Low-Resource Scenarios [18.036712630643205]
HQ-SVCは高品質なゼロショット音声変換のための効率的なフレームワークである。 HQ-SVCはまず、疎結合モデルを用いて、共同コンテンツと話者の特徴を抽出する。その後、ピッチやボリュームモデリングを通じて忠実度を高め、重要な音響情報を保存する。
論文参考訳（メタデータ） (2025-11-11T17:33:30Z)
SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-06-09T08:34:01Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
CoMoSVC: Consistency Model-based Singing Voice Conversion [40.08004069518143]
一貫性モデルに基づく歌声変換法であるCoMoSVCを提案する。 CoMoSVCは、高品質な生成と高速サンプリングの両方を達成することを目指している。 1つのNVIDIA GTX4090 GPUの実験では、CoMoSVCは最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を示している。
論文参考訳（メタデータ） (2024-01-03T15:47:17Z)
A Comparative Analysis Of Latent Regressor Losses For Singing Voice Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文参考訳（メタデータ） (2023-02-27T11:26:57Z)
Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-10-20T08:47:35Z)
VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。 Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文参考訳（メタデータ） (2022-02-18T08:58:45Z)
Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文参考訳（メタデータ） (2021-06-16T15:47:06Z)
DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。 DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文参考訳（メタデータ） (2021-05-28T14:26:40Z)
NoiseVC: Towards High Quality Zero-Shot Voice Conversion [2.3224617218247126]
NoiseVC は、VQ と Contrastive Predictive Coding (CPC) に基づいてコンテンツを切り離すことができるアプローチである。我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
論文参考訳（メタデータ） (2021-04-13T10:12:38Z)
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文参考訳（メタデータ） (2020-09-09T14:26:56Z)
VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文参考訳（メタデータ） (2020-08-10T09:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。