論文の概要: Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion
- arxiv url: http://arxiv.org/abs/2506.04013v1
- Date: Wed, 04 Jun 2025 14:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.384572
- Title: Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion
- Title(参考訳): 非自己回帰的ゼロショット表現型音声変換における歪み改善に向けて
- Authors: Seymanur Akti, Tuan Nam Nguyen, Alexander Waibel,
- Abstract要約: 表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
- 参考スコア(独自算出の注目度): 53.26424100244925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive voice conversion aims to transfer both speaker identity and expressive attributes from a target speech to a given source speech. In this work, we improve over a self-supervised, non-autoregressive framework with a conditional variational autoencoder, focusing on reducing source timbre leakage and improving linguistic-acoustic disentanglement for better style transfer. To minimize style leakage, we use multilingual discrete speech units for content representation and reinforce embeddings with augmentation-based similarity loss and mix-style layer normalization. To enhance expressivity transfer, we incorporate local F0 information via cross-attention and extract style embeddings enriched with global pitch and energy features. Experiments show our model outperforms baselines in emotion and speaker similarity, demonstrating superior style adaptation and reduced source style leakage.
- Abstract(参考訳): 表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己教師型非自己回帰型フレームワークを改良し,ソース音色漏れの低減と,より優れたスタイル伝達のための言語・音響的ゆがみの改善に着目する。
スタイルリークを最小限に抑えるため、コンテンツ表現に多言語離散音声ユニットを使用し、拡張に基づく類似性損失とミックススタイルの正規化による埋め込みを強化した。
表現率伝達を向上させるため,グローバルピッチとエネルギー特性に富んだクロスアテンションと抽出スタイル埋め込みを用いて局所的なF0情報を組み込む。
実験により、モデルが感情や話者の類似性においてベースラインよりも優れており、優れたスタイル適応とソーススタイルリークの低減が示されている。
関連論文リスト
- AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling [14.98368067290024]
Takin-VCは、新しい表現力のあるゼロショット音声変換フレームワークである。
本稿では,適応型融合モジュールを組み込んだ革新的なハイブリッドコンテンツエンコーダを提案する。
音色モデリングでは,メモリ拡張およびコンテキスト対応モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。