論文の概要: Learning Disentangled Phone and Speaker Representations in a
Semi-Supervised VQ-VAE Paradigm
- arxiv url: http://arxiv.org/abs/2010.10727v2
- Date: Wed, 10 Feb 2021 07:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:11:54.839545
- Title: Learning Disentangled Phone and Speaker Representations in a
Semi-Supervised VQ-VAE Paradigm
- Title(参考訳): 半教師付きVQ-VAEパラダイムにおけるディスタングルフォンと話者表現の学習
- Authors: Jennifer Williams, Yi Zhao, Erica Cooper, Junichi Yamagishi
- Abstract要約: 本稿では,音声合成のためのVQ-VAEアーキテクチャに新たなコンポーネントを導入することで,音声と音声をアンタングル化する新しいアプローチを提案する。
オリジナルのVQ-VAEは、目に見えない話者やコンテンツに対してうまく一般化していない。
我々は,既存のサブホンコードブックとは全く異なるグローバルな話者特性を学習する話者エンコーダと話者VQコードブックを組み込んだ。
- 参考スコア(独自算出の注目度): 44.97570910427165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new approach to disentangle speaker voice and phone content by
introducing new components to the VQ-VAE architecture for speech synthesis. The
original VQ-VAE does not generalize well to unseen speakers or content. To
alleviate this problem, we have incorporated a speaker encoder and speaker VQ
codebook that learns global speaker characteristics entirely separate from the
existing sub-phone codebooks. We also compare two training methods:
self-supervised with global conditions and semi-supervised with speaker labels.
Adding a speaker VQ component improves objective measures of speech synthesis
quality (estimated MOS, speaker similarity, ASR-based intelligibility) and
provides learned representations that are meaningful. Our speaker VQ codebook
indices can be used in a simple speaker diarization task and perform slightly
better than an x-vector baseline. Additionally, phones can be recognized from
sub-phone VQ codebook indices in our semi-supervised VQ-VAE better than
self-supervised with global conditions.
- Abstract(参考訳): 本稿では,音声合成のためのVQ-VAEアーキテクチャに新たなコンポーネントを導入することで,音声と音声をアンタングル化する新しいアプローチを提案する。
オリジナルのvq-vaeは、見当たらない話者やコンテンツにうまく一般化していない。
この問題を軽減するため,既存のサブホンコードブックとは全く異なるグローバルな話者特性を学習する話者エンコーダと話者VQコードブックを組み込んだ。
また,グローバルな条件で自己教師する手法と,話者ラベルで半教師する手法を比較した。
話者vqコンポーネントの追加は、音声合成品質(推定mos、話者類似性、asrベースの知性)の客観的尺度を改善し、意味のある学習表現を提供する。
我々の話者VQコードブックインデックスは、単純な話者ダイアリゼーションタスクで使用することができ、xベクトルベースラインよりも若干性能が良い。
さらに、半教師付きvq-vaeのサブホンvqコードブックインデックスから、グローバル条件で自己教師付きよりも電話を認識できる。
関連論文リスト
- Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue [41.10328851671422]
SpeechLLMは、ガオカオのようなベンチマークで印象的な音声対話質問応答(SQA)性能を示した。
本研究では,音声からの話者認識に制限があり,音声のない会話の書き起こしからLLMに類似した振る舞いを示す。
我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。
論文 参考訳(メタデータ) (2024-09-07T22:54:47Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。