論文の概要: Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement
- arxiv url: http://arxiv.org/abs/2502.07243v1
- Date: Tue, 11 Feb 2025 04:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:43.943399
- Title: Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement
- Title(参考訳): Vevo:自己監督型アンタングルによるコントロール可能なゼロショット音声模倣
- Authors: Xueyao Zhang, Xiaohui Zhang, Kainan Peng, Zhenyu Tang, Vimal Manohar, Yingru Liu, Jeff Hwang, Dangna Li, Yuhao Wang, Julian Chan, Yuan Huang, Zhizheng Wu, Mingbo Ma,
- Abstract要約: Vevoは、コントロール可能な音色とスタイルを備えた汎用的なゼロショット音声模倣フレームワークである。
音声のコンテンツとコンテンツスタイルのトークンを得るために,完全自己教師型アプローチを設計する。
Vevoはアクセントと感情の変換タスクで既存のメソッドにマッチするか、超える。
- 参考スコア(独自算出の注目度): 18.669597283434662
- License:
- Abstract: The imitation of voice, targeted on specific speech attributes such as timbre and speaking style, is crucial in speech generation. However, existing methods rely heavily on annotated data, and struggle with effectively disentangling timbre and style, leading to challenges in achieving controllable generation, especially in zero-shot scenarios. To address these issues, we propose Vevo, a versatile zero-shot voice imitation framework with controllable timbre and style. Vevo operates in two core stages: (1) Content-Style Modeling: Given either text or speech's content tokens as input, we utilize an autoregressive transformer to generate the content-style tokens, which is prompted by a style reference; (2) Acoustic Modeling: Given the content-style tokens as input, we employ a flow-matching transformer to produce acoustic representations, which is prompted by a timbre reference. To obtain the content and content-style tokens of speech, we design a fully self-supervised approach that progressively decouples the timbre, style, and linguistic content of speech. Specifically, we adopt VQ-VAE as the tokenizer for the continuous hidden features of HuBERT. We treat the vocabulary size of the VQ-VAE codebook as the information bottleneck, and adjust it carefully to obtain the disentangled speech representations. Solely self-supervised trained on 60K hours of audiobook speech data, without any fine-tuning on style-specific corpora, Vevo matches or surpasses existing methods in accent and emotion conversion tasks. Additionally, Vevo's effectiveness in zero-shot voice conversion and text-to-speech tasks further demonstrates its strong generalization and versatility. Audio samples are available at https://versavoice.github.io.
- Abstract(参考訳): 音色や話し方などの特定の音声属性をターゲットとした音声の模倣は、音声生成において不可欠である。
しかし、既存の手法は注釈付きデータに大きく依存しており、音色やスタイルを効果的に切り離すのに苦労しており、特にゼロショットシナリオにおいて制御可能な生成を実現する上での課題につながっている。
これらの問題に対処するために,制御可能な音色とスタイルを備えた多目的ゼロショット音声模倣フレームワークであるVevoを提案する。
Vevoは,(1)コンテンツスタイルモデリング:テキストまたは音声のコンテンツトークンを入力として与え,(2)スタイル参照によって誘導されるコンテンツスタイルトークンを生成する自動回帰変換器,(2)音響モデリング:入力としてコンテンツスタイルトークンを付与するフローマッチング変換器を用いて,音色参照によって誘導される音響表現を生成する。
音声の内容と内容スタイルのトークンを得るために,音声の音色,スタイル,言語的内容を段階的に分離する,完全に自己指導的なアプローチを設計する。
具体的には,HuBERTの連続隠蔽機能に対して,VQ-VAEをトークン化器として採用する。
本稿では,VQ-VAEコードブックの語彙サイズを情報ボトルネックとして扱い,それを慎重に調整し,非絡み合った音声表現を得る。
60K時間に及ぶオーディオブックの音声データに基づいて、Vevoはスタイル固有のコーパスを微調整せず、既存のアクセントと感情の変換タスクにマッチするか、あるいは超えている。
さらに、Vevoのゼロショット音声変換とテキスト音声タスクの有効性は、その強力な一般化と汎用性を示している。
オーディオサンプルはhttps://versavoice.github.io.comで入手できる。
関連論文リスト
- Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training [32.35100329067037]
新しい音声変換フレームワーク $boldsymbol T$ext $boldsymbol G$uided $boldsymbol A$utoVC(TGAVC)
音声から抽出した推定内容の話者識別情報を除去するために、逆トレーニングを適用する。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
論文 参考訳(メタデータ) (2022-08-08T10:33:36Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。