論文の概要: X-VC: Zero-shot Streaming Voice Conversion in Codec Space
- arxiv url: http://arxiv.org/abs/2604.12456v2
- Date: Wed, 22 Apr 2026 07:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.160355
- Title: X-VC: Zero-shot Streaming Voice Conversion in Codec Space
- Title(参考訳): X-VC:コーデック空間におけるゼロショットストリーミング音声変換
- Authors: Qixi Zheng, Yuxiang Zhao, Tianrui Wang, Wenxi Chen, Kele Xu, Yikang Li, Qinyuan Chen, Xipeng Qiu, Kai Yu, Xie Chen,
- Abstract要約: X-VCはゼロショットストリーミングVCシステムであり、事前訓練されたニューラルネットワークの潜在空間でワンステップ変換を行う。
X-VCは、英語と中国語の両方で最高のストリーミングWERを達成する。
- 参考スコア(独自算出の注目度): 68.11390597559101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot voice conversion (VC) aims to convert a source utterance into the voice of an unseen target speaker while preserving its linguistic content. Although recent systems have improved conversion quality, building zero-shot VC systems for interactive scenarios remains challenging because high-fidelity speaker transfer and low-latency streaming inference are difficult to achieve simultaneously. In this work, we present X-VC, a zero-shot streaming VC system that performs one-step conversion in the latent space of a pretrained neural codec. X-VC uses a dual-conditioning acoustic converter that jointly models source codec latents and frame-level acoustic conditions derived from target reference speech, while injecting utterance-level target speaker information through adaptive normalization. To reduce the mismatch between training and inference, we train the model with generated paired data and a role-assignment strategy that combines standard, reconstruction, and reversed modes. For streaming inference, we further adopt a chunkwise inference scheme with overlap smoothing that is aligned with the segment-based training paradigm of the codec. Experiments on Seed-TTS-Eval show that X-VC achieves the best streaming WER in both English and Chinese, strong speaker similarity in same-language and cross-lingual settings, and substantially lower offline real-time factor than the compared baselines. These results suggest that codec-space one-step conversion is a practical approach for building high-quality low-latency zero-shot VC systems. Our audio samples, code and checkpoints are released at https://github.com/Jerrister/X-VC.
- Abstract(参考訳): ゼロショット音声変換(VC: Zero-shot Voice conversion)は、音源の発話を未知のターゲット話者の声に変換し、その言語内容を保存することを目的としている。
近年のシステムでは変換品質が向上しているが,高忠実度話者転送と低レイテンシストリーミング推論の同時実現が難しいため,対話シナリオのためのゼロショットVCシステムの構築は依然として困難である。
本研究では,事前学習したニューラルコーデックの潜在空間において一段階変換を行うゼロショットストリーミングVCシステムであるX-VCを提案する。
X-VCは、適応正規化により発話レベルターゲット話者情報を注入しながら、ソースコーデック潜時とターゲット基準音声から派生したフレームレベルの音響条件を共同でモデル化するデュアルコンディショニング音響コンバータを使用している。
トレーニングと推論のミスマッチを低減するため、モデルに生成したペアデータと、標準モード、再構成モード、反転モードを組み合わせたロール割り当て戦略をトレーニングする。
ストリーミング推論では,コーデックのセグメントベーストレーニングパラダイムに則った重複平滑化を伴うチャンクワイズ推論方式を採用する。
Seed-TTS-Evalの実験によると、X-VCは英語と中国語の両方で最高のストリーミングWERを実現し、同言語と言語間における強い話者類似性を達成し、比較したベースラインよりもオフラインリアルタイム係数を著しく低くしている。
これらの結果から,コーデック空間の一段階変換は,高品質の低遅延ゼロショットVCシステムを構築するための実践的手法であることが示唆された。
私たちのオーディオサンプル、コード、チェックポイントはhttps://github.com/Jerrister/X-VC.orgで公開されています。
関連論文リスト
- SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling [14.98368067290024]
Takin-VCは、新しい表現力のあるゼロショット音声変換フレームワークである。
本稿では,適応型融合モジュールを組み込んだ革新的なハイブリッドコンテンツエンコーダを提案する。
音色モデリングでは,メモリ拡張およびコンテキスト対応モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。