論文の概要、ライセンス

# (参考訳) 条件付きDSVAEによるゼロショット音声変換の改善に向けて [全文訳有]

Towards Improved Zero-shot Voice Conversion with Conditional DSVAE ( http://arxiv.org/abs/2205.05227v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and Dong Yu(参考訳) ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。 本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。 ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。 そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。 ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。 ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。 条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。 VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。

Disentangling content and speaking style information is essential for zero-shot non-parallel voice conversion (VC). Our previous study investigated a novel framework with disentangled sequential variational autoencoder (DSVAE) as the backbone for information decomposition. We have demonstrated that simultaneous disentangling content embedding and speaker embedding from one utterance is feasible for zero-shot VC. In this study, we continue the direction by raising one concern about the prior distribution of content branch in the DSVAE baseline. We find the random initialized prior distribution will force the content embedding to reduce the phonetic-structure information during the learning process, which is not a desired property. Here, we seek to achieve a better content embedding with more phonetic information preserved. We propose conditional DSVAE, a new model that enables content bias as a condition to the prior modeling and reshapes the content embedding sampled from the posterior distribution. In our experiment on the VCTK dataset, we demonstrate that content embeddings derived from the conditional DSVAE overcome the randomness and achieve a much better phoneme classification accuracy, a stabilized vocalization and a better zero-shot VC performance compared with the competitive DSVAE baseline.
公開日: Wed, 11 May 2022 01:19:42 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Towards Improved Zero-shot Voice Conversion with Conditional DSVAE 条件付きDSVAEによるゼロショット音声変換の改善に向けて 0.58
Jiachen Lian1 Jiachen Lian1 0.44
, 2 , ∗, Chunlei Zhang2 , 2 , ∗、Chunlei Zhang2 0.51
, ∗, Gopala Krishna Anumanchipalli1, Dong Yu2 , ∗, Gopala Krishna Anumanchipalli1, Dong Yu2 0.45
jiachenlian@berkeley .edu, cleizhang@tencent.co m, gopala@berkeley.edu, dyu@tencent.com jiachenlian@berkeley .edu, cleizhang@tencent.co m, gopala@berkeley.edu, dyu@tencent.com 0.39
1 UC Berkeley, EECS, CA 2 Tencent AI Lab, Bellevue, WA UC Berkeley, EECS, CA 2 Tencent AI Lab, Bellevue, WA 0.38
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] S A . s s e e [ ] s a。 s s e e である。 0.40
1 v 7 2 2 5 0 1 v 7 2 2 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Disentangling content and speaking style information is essential for zero-shot non-parallel voice conversion (VC). 概要 ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。 0.60
Our previous study investigated a novel framework with disentangled sequential variational autoencoder (DSVAE) as the backbone for information decomposition. 本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。 0.61
We have demonstrated that simultaneous disentangling content embedding and speaker embedding from one utterance is feasible for zero-shot VC. ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。 0.56
In this study, we continue the direction by raising one concern about the prior distribution of content branch in the DSVAE baseline. そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。 0.78
We find the random initialized prior distribution will force the content embedding to reduce the phonetic-structure information during the learning process, which is not a desired property. ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。 0.78
Here, we seek to achieve a better content embedding with more phonetic information preserved. ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。 0.59
We propose conditional DSVAE, a new model that enables content bias as a condition to the prior modeling and reshapes the content embedding sampled from the posterior distribution. 条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。 0.84
In our experiment on the VCTK dataset, we demonstrate that content embeddings derived from the conditional DSVAE overcome the randomness and achieve a much better phoneme classification accuracy, a stabilized vocalization and a better zero-shot VC performance compared with the competitive DSVAE baseline. VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。 0.69
Index Terms: Voice Conversion, DSVAE, Representation Learning, Generative Model, Zero-shot style transfer 指標項:音声変換、DSVAE、表現学習、生成モデル、ゼロショットスタイル転送 0.69
1. Introduction Voice Conversion (VC) is a technique that converts the nonlinguistic information of a given utterance to a target style (e g , speaker identity, emotion, accent or rhythm etc.), while preserving the linguistic content information. はじめに 音声変換(vc)は、言語内容情報を維持しつつ、与えられた発話の非言語的情報を対象のスタイル(話者のアイデンティティ、感情、アクセント、リズムなど)に変換する技術である。
訳抜け防止モード: はじめに 音声変換(Voice Conversion, VC)は、与えられた発話の非言語情報を対象のスタイル(e.g.)に変換する手法である。 話者のアイデンティティ、感情、アクセント、リズムなど) 言語内容情報を保持しながら
0.59
VC has become a very active research topic in speech processing with potential applications in privacy protection speaker de-identification, audio editing or sing voice conversion/generatio n [1–3]. VCは、プライバシー保護話者の識別、音声編集、音声変換/生成 [1-3] の潜在的な応用において、音声処理において非常に活発な研究トピックとなっている。 0.60
Current VC systems embrace the technological advancements from statistical modeling to deep learning and have made a major shift on how the pipeline develops [1]. 現在のVCシステムは、統計モデリングからディープラーニングへの技術的進歩を受け入れ、パイプラインの展開方法を大きく変えた[1]。 0.67
For example, the conventional VC approaches with parallel training data utilize a conversion module to map source acoustic features to target acoustic features, the source-target pair has to be aligned before the mapping [4]. 例えば、並列トレーニングデータを用いた従来のVCアプローチでは、変換モジュールを使用してソース音響特徴を目標とする音響特徴をマッピングし、ソースとターゲットのペアをマッピング前にアライメントする必要がある[4]。 0.72
With the advent of sequence-to-sequence models even without the alignment prerequisite, better VC performance is reported [5]. アライメントの前提条件がなくてもシーケンス・ツー・シーケンスモデルが出現すると、VCのパフォーマンスが向上する[5]。 0.62
For VC with non-parallel data, direct feature mapping method is difficult. 非並列データを持つVCにとって、直接特徴マッピング法は難しい。 0.71
Instead, studies start to explicitly learn the speaking style and content representations and train a neural network as a decoder to reconstruct the acoustic feature, with the assumption that the decoder can also generalize well when the content and speaker style is swapped during the conversion. 代わりに、研究は発話スタイルとコンテンツ表現を明示的に学習し、ニューラルネットワークをデコーダとして訓練して音響特徴を再構築し、変換中にコンテンツと話者スタイルが入れ替わる際にデコーダもうまく一般化できると仮定する。 0.80
Among the approaches, phonetic posteriorgrams (PPGs) and pre-trained speaker embeddings are widely アプローチの中では、音声後部グラフ(PPG)と事前学習話者埋め込みが広く行われている。 0.54
∗ Equal Contribution. Equal Contribution の略。 0.63
Work done when Jiachen was an intern at ジャチェンがインターンだった頃の仕事は 0.50
Tencent AI Lab, Bellevue, WA Tencent AI Lab, Bellevue, WA 0.42
used as the content and speaking style representations [6–9]. 内容および話し方表現として使用される[6-9]。 0.67
However, developing such system usually requires a big amount of external data with rich transcriptions and speaker labels. しかし、このようなシステムを開発するには、通常、豊富な文字と話者ラベルを持つ大量の外部データが必要である。
訳抜け防止モード: しかし このようなシステムの開発は 通常、リッチな書き起こしと話者ラベルを持つ大量の外部データを必要とする。
0.71
The relatively small-footprint AUTOVC and AdaIN-VC employ encoder-decoder frameworks for zero-shot VC [10, 11]. AUTOVCとAdaIN-VCは、ゼロショットVC [10, 11]のためにエンコーダデコーダフレームワークを採用している。 0.57
The encoder decomposes the speaking style and the content information into the latent embedding, and the decoder generates a voice sample by combining both disentangled information. エンコーダは、発話スタイルと内容情報を潜在埋め込みに分解し、デコーダは、両異種情報を結合して音声サンプルを生成する。 0.74
Nevertheless, these models require supervisions such as positive pair of utterances (i.e., two utterances come from the same speaker), and the systems still have to rely on pretrained speaker models. それでもこれらのモデルは、正の対の発話(すなわち、2つの発話は同じ話者から来ている)のような監督を必要とする。 0.57
Progress has also been made with generative adversarial networks (GAN) based VC systems [12–14]. また、generative adversarial networks (gan)ベースのvcシステム [12–14] も進歩している。 0.68
This categorical of method usually assumes that the speaker of source-target VC pair is pre-known, which limits the application of such models in the real world. この手法の分類は、通常、ソースターゲットVCペアの話者が既知であると仮定し、現実世界でのそのようなモデルの適用を制限する。 0.73
At the same time, bunch of regularization terms have to be applied in the training process, which imposes generalization doubts to such systems for zero-shot non-parallel VC scenarios. 同時に、トレーニングプロセスには多数の正規化用語を適用する必要があるため、ゼロショットのノン並列VCシナリオでは、そのようなシステムに一般化の疑念が生じる。 0.67
Our previous study proposed a novel disentangled sequential variational autoencoder (DSVAE) [15] as a backbone framework for zero-shot non-parallel VC. 前報では、ゼロショットノン並列VCのバックボーンフレームワークとして、新しいアンタングル型逐次変分オートエンコーダ (DSVAE) [15] を提案した。 0.58
We designed two branches in the encoder of DSVAE to hold the time-varying and the timeinvariant components, where balanced content and speaking style information flow is achieved with the VAE training [16]. 我々はDSVAEエンコーダの2つのブランチを設計し、VAEトレーニング [16] によってバランスの取れたコンテンツと話し方情報の流れが達成される時間変化成分と時変成分を保持する。 0.80
We demonstrated that the vanilla VAE [16, 17] loss can be extended to force strong disentanglement between speaker and content components, which is essential for the success of challenging zero-shot non-parallel VC. 我々は,バニラVAE[16,17]損失を拡大して,話者とコンテンツコンポーネントの強い絡み合いを強いることを示し,これは,ゼロショットノン並列VCの成功に不可欠である。 0.73
In this study, we continue the direction by further improving the disentangled representation learning in the DSVAE framework. 本研究では,DSVAEフレームワークにおける不整合表現学習をさらに改善して方向性を継続する。 0.80
One major concern is raised after we analyzed the content embedding learned from our DSVAE baseline [15]. DSVAEベースライン [15] から学んだコンテンツ埋め込みを分析した後、大きな懸念が浮かび上がっています。 0.74
We find that the random initialed prior distribution in the content branch of the baseline DSVAE is not optimal to preserve the phonetic/content structure information. ベースラインDSVAEのコンテンツ分岐におけるランダムな初期化前の分布は、音声・コンテンツ構造情報を保存するのに最適ではない。 0.73
The randomness of content embedding zc has a negative impact to phoneme classification and VC. zcを埋め込んだコンテンツのランダム性は、音素分類とVCに悪影響を及ぼす。 0.69
To cope with this issue, we propose conditional DSVAE (C-DSVAE), an improved framework that corrects the randomness in the content prior distribution with content bias. この問題に対処するため,コンテンツ事前分布のランダム性をコンテンツバイアスで補正する改良されたフレームワークである条件付きDSVAE(C-DSVAE)を提案する。 0.83
Alternative content biases extended from unsupervised learning, supervised learning and self-supervised learning are explored in this portion of study. 本研究では,教師なし学習,教師なし学習,自己教師なし学習から拡張したコンテンツバイアスについて検討する。 0.49
The VC experiments on VCTK dateset demonstrate a clear stabilized vocalization and a significantly improved performance with the new content embeddings. VCTKの日付セットに関するVC実験では、明瞭な安定化された発声と、新しいコンテンツ埋め込みによる大幅な性能向上が示されている。
訳抜け防止モード: VCTKデートセットにおけるVC実験は明らかに安定化された発声を示す 新しいコンテンツ埋め込みによってパフォーマンスが大幅に向上した。
0.69
Phoneme classification with zc also justifies the effectiveness of the proposed model in an objective way. zcを用いた音素分類は,提案モデルの有効性を客観的に正当化する。 0.69
2. The DSVAE Baseline 2. DSVAE ベースライン 0.65
2.1. Related Work 2.1. 関連作品 0.51
DSVAE [17] was proposed as a sequential generative model that disentangles the time-invariant information from the timevariant information in the latent space. DSVAE[17]は、潜時空間における時変情報から時変情報を切り離す逐次生成モデルとして提案された。 0.84
The original DSVAE オリジナルのDSVAE 0.72
英語(論文から抽出)日本語訳スコア
Eshare zs zc エシャレ zs zc 0.39
ES sampling EC エス サンプリング EC 0.54
sampling 1. DSVAE prior model サンプリング 1. DSVAE 先行モデル 0.72
2. C-DSVAE prior model 2.C-DSVAE先行モデル 0.83
Decoder Vocoder デコーダ ヴォコーダ 0.61
content bias conditioned コンテンツバイアス条件付き 0.74
to the prior model Figure 1: The system diagram of conditional DSVAE. 前のモデルに 図1:条件付きDSVAEのシステム図。 0.71
model [17] and its early variants [18, 19] achieved limited success in speech disentanglement. モデル [17] とその初期の変種 [18, 19] は, 音声の絡み合いにおいて限られた成功を収めた。 0.70
Recently, we extended the DSVAE by balancing the information flow between speaker and content representations and it achieved the state-of-the-art performance for zero-shot non-parallel VC [15]. 近年,話者とコンテンツ表現間の情報フローのバランスをとることでDSVAEを拡張し,ゼロショットノン並列VC[15]の最先端性能を実現した。 0.72
To be unified, we refer to DSVAE as the baseline we developed in [15], although it is already very different from the previous systems [17–19]. 統一するために DSVAE を [15] で開発したベースラインとして参照するが、既に以前のシステム [17–19] とは大きく異なる。 0.79
2.2. Baseline Overview 2.2. Baseline概要 0.37
The DSVAE baseline adopted here is shown in Fig 1. ここで採用されているDSVAEベースラインは図1に示す。 0.67
Denote X, ˆX, zs, zs, θ as input melspectrogram, reconstructed melspectrogram, speaker embedding, content embedding and model parameters, respectively. 入力 melspectrogram としてのノート X, shX, zs, zs, θ はそれぞれ再構成された melspectrogram, 話者埋め込み, コンテンツ埋め込み, モデルパラメータである。 0.81
The shared encoder Eshare takes X as input and outputs a latent representation, with the speaker encoder ES and the content encoder EC modeling the posterior distribution qθ(zs|X) and qθ(zc|X) subsequently. 共有エンコーダeshareはxを入力とし、話者エンコーダesとコンテンツエンコーダecとを後続分布qθ(zs|x)およびqθ(zc|x)をモデル化して潜在表現を出力する。 0.76
zs and zc are then sampled from qθ(zs|X) and qθ(zc|X). zs と zc は qθ(zs|X) と qθ(zc|X) からサンプリングされる。 0.75
In the next stage, the decoder takes the concatenation of zs and zc, and passes them into decoder D to reconstruct the melspectrogram ˆX, i.e. ˆX = D(zs, zc). 次の段階では、デコーダは zs と zc の結合を受け取り、それらをデコーダ d に渡してメルスペクタグラム \x を再構成する。
訳抜け防止モード: 次の段階では、デコーダはzsとzcの結合を取る。 それらをデコーダdに渡すと メルスペクトログラムを再構成するには、x = d(zs, zc) である。
0.72
The vocoder then converts ˆX into waveform. ボコーダはその後、X を波形に変換する。 0.64
Both the prior distribution pθ(z) and the posterior distribution qθ(z|X) are designed to follow the independence criterion, which is similar to [15, 17–19]. 先行分布 pθ(z) と後分布 qθ(z|X) は、[15, 17–19] に類似した独立性基準に従うように設計されている。 0.82
Specifically, they can be factorized as Eq (1) and Eq (2). 具体的には、eq (1) と eq (2) と分解することができる。 0.72
Note that we use qθ(zct|X) to model the content posterior since the content encoder consists of BiLSTM modules, which is slightly different from the streaming posterior qθ(xct|X< t) described in [17, 18], where they adopt unidirectional LSTM or RNN. コンテンツエンコーダは[17,18]に記述されたストリーミング後部qθ(xct|X< t)と若干異なるBiLSTMモジュールで構成されており、一方向LSTMまたはRNNを採用するため、コンテンツ後部をqθ(zct|X)を用いてモデル化する。 0.82
pθ(zs, zc) = p(zs)pθ(zc) = p(zs) QT qθ(zs, zs|X) = qθ(zs|X)qθ(zc|X) = qθ(zs|X) QT pθ(zs, zc) = p(zs)pθ(zc) = p(zs) QT qθ(zs, zs|X) = qθ(zs|X)qθ(zc|X) = qθ(zs|X) QT 0.44
t=1 pθ(zct|zc< t) (1) t=1 qθ(zct|X) (2) t=1 pθ(zct|zc< t) (1) t=1 qθ(zct|X) (2) 0.39
2.3. Training and Inference 2.3. トレーニングと推論 0.53
During training, the model takes fixed length of X as input and optimizes with three objectives: LREC , LKLDs and LKLDc , as Eq (3) (4) (5). トレーニング中、モデルは入力としてXの固定長を持ち、LREC、LKLDs、LKLDcの3つの目標をEq (3) (4) (5)として最適化する。
訳抜け防止モード: トレーニング中、モデルは入力としてXの固定長を取る LREC, LKLDs, LKLDcの3つの目標を最適化する。 as Eq ( 3 ) ( 4 ) ( 5 ) .
0.88
LREC is the reconstruction loss, which is implemented as the negative log likelihood. LRECは復元損失であり、負のログ可能性として実装されている。 0.61
LKLDs and LKLDc denote the KL divergence for speaker and content respectively. LKLDsとLKLDcはそれぞれ話者と内容のKL分散を表す。 0.74
(3) LREC = Ep(X)Eqθ (X|zs,zc)[−log(qθ(X|zs, zc))] (3) LREC = Ep(X)Eqθ (X|zs,zc)[-log(qθ(X|zs,zc))] 0.45
LKLDs = Ep(X)[KLD(p(zs)||qθ(zs|X))] LKLDc = Ep(X)[KLD(pθ(zc)||qθ(zc|X))] LKLDs = Ep(X)[KLD(p(zs)||qθ(zs|X))] LKLDc = Ep(X)[KLD(pθ(zc)||qθ(zc|X))] 0.48
(4) (5) Given X1 as the source utterance and X2 as the target utterance for VC inference, the transferred sample is simply D(zs2, zc1), where zs2 and zc1 are sampled from qθ(zs|X2) and qθ(zc|X1). (4) (5) VC推論のターゲット発話としてX1とX2が与えられた場合、転送されたサンプルは単にD(zs2, zc1)であり、zs2, zc1はqθ(zs|X2)およびqθ(zc|X1)からサンプリングされる。 0.52
We use a vocoder to convert the mel spec to the waveform. 我々は、vocoderを使用して、mel仕様を波形に変換する。 0.71
2.4. Implementation Details 2.4. 実施内容 0.38
Table. 1 provides detailed descriptions of each module of the DSVAE baseline. テーブル。 DSVAEベースラインの各モジュールの詳細な説明を提供する。 0.72
For shared encoder and decoder, the instance normalization [20] is applied on both time and frequency axis. 共有エンコーダとデコーダでは、時間軸と周波数軸の両方にインスタンス正規化[20]を適用する。 0.77
For speaker encoder ES, content encoder EC and the content prior model pzc , two dense layers are used to model the mean and standard deviation of the q(zs|X), q(zct|X), p(zct|zc< t) respectively. 話者エンコーダES、コンテンツエンコーダECおよびコンテンツ先行モデルpzcに対して、それぞれq(zs|X)、q(zct|X)、p(zct|zc< t)の平均偏差と標準偏差をモデル化するために2つの密層を用いる。 0.74
For the prior models, p(zs) is the standard normal distribution and pθ(zc) is modeled by an autoregressive LSTM: at each time step t, the model generates p(zct|zc< t), from which zct is sampled and taken as the input for next time step. 前のモデルでは、p(zs) は標準正規分布であり、pθ(zc) は自己回帰型LSTMによりモデル化される:各時間ステップ t において、モデルが p(zct|zc< t) を生成し、そこから zct をサンプリングして次の時間ステップの入力として取り込む。 0.78
Note that pθ(zc) is independent of the input data X. The decoder consists of a prenet and postnet, which is introduced in [10]. pθ(zc) は入力データ X とは独立であり、デコーダは[10] で導入されたプリネットとポストネットから構成される。 0.78
We use HiFi-GAN V1 [21] instead of WaveNet [22] as vocoder since HiFi-GAN results in better speech quality with much faster inference speed. 我々は、WaveNet[22]の代わりにHiFi-GAN V1[21]をボコーダとして使用しています。 0.63
The vocoder is pretrained with VCTK [23] and is not involved in the training. ボコーダはVCTK[23]で事前訓練されており、トレーニングには関与していない。 0.66
(Conv1D(256, 5, 2, 1)→ InstanceNorm2D→ ReLU)×3 (conv1d(256, 5, 2, 1)→インスタンスnorm2d→relu)×3 0.69
Shared Encoder Eshare 共有エンコーダeshare 0.74
Speaker Encoder ES スピーカエンコーダes 0.65
Content Encoder EC コンテンツエンコーダEC 0.77
BiLSTM(512, 2)→ Pooling BiLSTM(512, 2)→RNN(512, 1) BiLSTM(512, 2)→Pooling BiLSTM(512, 2)→RNN(512, 1) 0.44
Dense(64) Dense(64) 香(64) 香(64) 0.65
Decoder-PreNet DP re Decoder-PreNet DP re 0.39
(InstanceNorm2D→ Conv1D(512, 5, 2, 1)→ ReLU)×3 (インスタンスNorm2D→Conv1D(512, 5, 2, 1)→ReLU)×3 0.78
LSTM(512, 1) → LSTM(1024, LSTM(512, 1) →LSTM(1024, 0.42
2) → Dense(80) 2) → Dense(80) 0.43
(Conv1D(512, 5, 2, 1)→ tanh→ InstanceNorm2D)×4 (conv1d(512, 5, 2, 1)→ tanh→ instancenorm2d)×4 0.38
Decoder-PostNet DP ost Decoder-PostNet DP ost 0.39
Vocoder D: HiFiGAN-V1 Vocoder D: HiFiGAN-V1 0.37
Prior p(zc) LSTM(256, 1)→Dense(64) 先行p(zc) lstm(256, 1)→dense(64) 0.73
Prior p(zs) N(0,I) 先行p(zs) N(0,I) 0.59
Table 1: Detailed DSVAE architecture. 表1: DSVAEアーキテクチャの詳細。 0.79
For Conv1D, the configuration is (output channels, kernel size, padding, stride). Conv1Dでは、構成は(出力チャネル、カーネルサイズ、パディング、ストライド)である。 0.71
For LSTM/BiLTSM/RNN, the configuration is (hidden dim, layers). LSTM/BiLTSM/RNNでは、構成は(隠された層、層)である。 0.60
For Dense layer, the configuration is (output dim). 密層の場合、構成は (output dim) である。 0.78
3. Conditional DSVAE 3.条件付きDSVAE 0.85
3.1. Conditional Prior Distribution 3.1. 条件付き事前分布 0.59
Ideal disentanglement requires zs to carry speaking style information and zc to carry content information without losing the phonetic structure. 理想的不等角化では、zsは発話スタイル情報を持ち、zcは音声構造を失うことなくコンテンツ情報を運ぶ必要がある。 0.53
One problem for the vanilla DSVAEs [15, 17–19] is that the prior distribution is randomly initialized, thus it does not impose any constraint to regularize the posterior distribution. バニラ DSVAEs [15, 17–19] の問題は、事前分布がランダムに初期化されているため、後続分布を正規化するための制約を課さないことである。 0.75
We argue that such randomness on the content prior distribution pθ(zc) impedes the content embedding zc from 我々は、コンテンツ事前分布 pθ(zc) 上のそのようなランダム性がコンテンツ埋め込み zc を阻害していると主張する。 0.65
英語(論文から抽出)日本語訳スコア
learning the phonetic structure information. 音韻構造情報を学習する。 0.79
Since the phonetic structure is explicitly modeled by qθ(zc|X), according to Eq 5, one of the objective is to minimize the KL divergence between qθ(zc|X) and pθ(zc). 音韻構造はqθ(zc|x) によって明示的にモデル化されるため、eq 5 によれば、目的は qθ(zc|x) と pθ(zc) の間の kl の発散を最小化することである。 0.68
Thus, we expect that content embedding will be significantly influenced by the prior pθ(zc) during VAE training. したがって,vae訓練中のコンテンツ埋め込みは,事前のpθ(zc)の影響を強く受けることを期待する。 0.67
In that sense, the learned phonetic structure qθ(zc|X) for all utterances will also follow the prior distribution, which does not reflect the real phonetic structure of the utterance. その意味で、すべての発話に対する学習された音声構造 qθ(zc|X) もまた、発話の実際の音声構造を反映しない事前分布に従う。 0.78
Such phenomenon can be observed in Fig 2(a) and Fig 2(c) which gives the t-SNE [24] visualization of zc comparing the learned content embeddings from the pretrained DSVAE [15] and the raw melspectrogram of the same utterances. このような現象は、事前訓練されたdsvae[15]と同一発話の生メルスペクトログラムとを比較したzcのt-sne[24]可視化を与えるfig2(a)およびfig2(c)で観察することができる。 0.74
It is observable that DSVAE representations are not phonetically discrimative in comparison to melspectrogram and they actually follow the random distribution. DSVAE表現はメルスペクトログラムと比較して音韻的に差別的ではなく、実際にランダム分布に従うことが観察できる。 0.66
The aforementioned problem is detrimental to disentanglement and will generate discontinuous speech with non-stable vocalizations. 上記の問題は絡み合いに有害であり、不安定な発声を伴う不連続な音声を生成する。 0.56
Our solution is that, instead of modeling pθ(zc), we will model the conditional content prior distribution pθ(zc|Y (X)) such that the prior distribution is meaningful in carrying the content information. 我々の解は、pθ(zc) をモデル化する代わりに、条件付きコンテンツの事前分布 pθ(zc|y(x)) をモデル化し、事前分布がコンテンツ情報を運ぶ上で意味を持つことである。 0.75
We call Y (X) as the content bias. 私たちは、Y (X) をコンテンツバイアスと呼びます。 0.70
The expectation is that, by incorporating the content bias into the prior distribution pθ(zc), the posterior distribution qθ(zc|X) will retain the phonetic structure of X. 期待は、コンテンツバイアスを事前分布 pθ(zc) に組み込むことにより、後方分布 qθ(zc|x) が x の音声構造を保ち続けることである。 0.76
3.2. Proposed C-DSVAE 3.2. c-dsvaeの提案 0.39
Based on the aforementioned discussion, we introduce four conditional DSVAE candidates: C-DSVAE(Align), CDSVAE(BEST-RQ), C-DSVAE(Mel) and C-DSVAE(WavLM) based on different content bias source. C-DSVAE(Align), CDSVAE(BEST-RQ), C-DSVAE(Mel), C-DSVAE(WavLM)の4つの条件付きDSVAE候補を紹介する。
訳抜け防止モード: 上記の議論に基づき、条件付きDSVAE候補4つ(C-DSVAE(Align ))を紹介する。 CDSVAE(BEST - RQ )、C - DSVAE(Mel )、C - DSVAE(WavLM )は、異なるコンテンツバイアス源に基づく。
0.72
In order to let zc or qθ(zc|X) to keep the C-DSVAE(Align) phonetic structure of the speech data X, the content bias Y (X) is expected to carry the fine-grained phonetic information. 音声データXのC-DSVAE(Align)音声構造をzcまたはqθ(zc|X)に保持させるため、内容バイアスY(X)は、その微細な音声情報を搬送することが期待される。 0.76
One natural choice is to let Y (X) be the forced alignment of X. To do so, we employ the Kaldi toolkit [25] to train a monophone model with 42 phonemes to obtain the forced alignment. 1つの自然な選択は、Y(X)をXの強制アライメントにすることです。そのために、Kaldiツールキット[25]を使用して42音素のモノフォンモデルをトレーニングし、強制アライメントを得る。 0.70
The training portion of the VCTK dataset is used in the HMM training (see Sec. 4.1 for dataset split). vctkデータセットのトレーニング部分は、hmmトレーニングで使用される(データセット分割のsec. 4.1参照)。 0.69
We denote this bias as YAlign. 私たちはこのバイアスをYAlignと表現します。 0.53
As an example showing in Fig 1, the content bias YAlign for the current utterance is the forced alignment labels [1 1 5 5 34 34 2 5 5 5]. 図1に示すように、現在の発話に対するコンテンツバイアスYAlignは強制アライメントラベル[1 1 5 5 34 34 2 5 5]である。 0.66
In the next step, the one-hot vectors are derived based on these labels for each frame, and are concatenated with the original inputs of pθ(zc) at each time step so that the new content prior becomes pθ(zc|Y (X)). 次のステップでは、各フレームのラベルに基づいてワンホットベクトルを導出し、各タイムステップでpθ(zc)の元の入力と連結して、前の新しいコンテンツがpθ(zc|Y(X))となる。 0.79
Such conditioned content prior is still factorized in a streaming manner, which is described as Eq 6. このような条件付きコンテンツは依然としてストリーミング方式で分解され、Eq 6と記述される。 0.69
frame-wise vectors, and then nearest-neighbour search is performed within a codebook to derive pseudo labels. フレームワイドベクターと最寄りの検索はコードブック内で行われ、擬似ラベルを導出する。 0.75
Both the projection matrix and codebook are randomly initialized and then fixed during training. 投影行列とコードブックはランダムに初期化され、トレーニング中に固定される。 0.72
We denote this bias as YBEST −RQ. このバイアスを YBEST − RQ と表す。 0.70
C-DSVAE(Mel) BEST-RQ [28] is more like an online clustering algorithm that generates the pseudo labels without seeing the entire dataset. C-DSVAE(Mel) BEST-RQ [28]は、データセット全体を見ることなく擬似ラベルを生成するオンラインクラスタリングアルゴリズムのようなものです。 0.75
In contrast, kmeans is an offline method that embraces more global information. 対照的に、kmeansはよりグローバルな情報を受け入れるオフラインの手法である。 0.67
We directly perform kmeans on the offline melspectrogram features on the whole training data. トレーニングデータ全体のオフラインメルスペクトログラム機能でkmeanを直接実行します。 0.53
After that, the index of cluster center is used as the pseudo label. その後、クラスタセンターのインデックスを擬似ラベルとして使用する。 0.72
This is consistent with the first step of HuBERT [26]. これは HuBERT [26] の最初のステップと一致する。 0.78
We denote this bias as YM el. このバイアスを YM el と表す。 0.61
C-DSVAE(WavLM) The problem in C-DSVAE(Mel) is that melspectrogram is noisy and not linguistically discriminative. C-DSVAE(WavLM) C-DSVAE(Mel)の問題は、メルスペクトログラムがノイズであり、言語的に識別できないことである。 0.58
To handle this problem, we attempt to apply kmeans on the pretrained features. この問題に対処するため、事前訓練された特徴に対してkmeansを適用する。 0.60
Specifically, we use the pre-trained WavLM features for kmeans clustering [29]. 具体的には, kmeansクラスタリング [29] に事前訓練した WavLM の機能を利用する。 0.70
The advantage of WavLM is that the aforementioned bias from melspectrograms will be alleviated via iterative clustering and the masked prediction training process. WavLMの利点は、上記のメルスペクトログラムからのバイアスが反復的クラスタリングとマスク付き予測トレーニングプロセスによって緩和されることである。 0.66
The other point is that WavLM acts as a teacher model so that the phonetic structure knowledge can be transferred from a larger corpus, which potentially improves the robustness and generalization capacity. もう1つのポイントは、WavLMが教師モデルとして機能し、より大きなコーパスから音声構造知識を伝達し、堅牢性と一般化能力を向上させることである。 0.69
We denote this bias as YW avLM . 我々はこのバイアスをYW avLMと表現する。 0.67
We use the WavLM Base model, which is pretrained with 960 hours of Librispeech data [30]. 960時間のlibrispeechデータ[30]をプリトレーニングしたwavlmベースモデルを使用する。
訳抜け防止モード: 私たちはWavLMベースモデルを使用します。 960時間のLibrispeechデータ[30 ]で事前トレーニングされる。
0.83
Kmeans++ [31] is employed for implementing clustering. Kmeans++[31]はクラスタリングの実装に使用される。 0.76
The number of cluster is set as 50 for all experiments. クラスタの数は、すべての実験で50に設定されている。 0.69
We still keep speaker prior p(zs) to be a Gaussian prior p(zs), which is actually a common assumption in speaker recognition. 我々はまだ、話者前 p(zs) をガウス前 p(zs) とし続けており、これは実際に話者認識において一般的な仮定である。 0.63
3.3. Training Objective 3.3. 研修目的 0.50
The content conditioned KL divergence loss is shown in Eq 7. 内容条件付きKL分散損失をEq7に示す。 0.71
The overall loss is shown in Eq, 8, where α and β are the factors that balances the disentanglement [15]. 全体の損失は eq, 8 において示され、α と β は不等角 [15] のバランスをとる因子である。 0.79
LKLDc−cond = Ep(X)[KLD(pθ(zc|Y (X))||qθ(zc|X))] LKLDc-cond = Ep(X)[KLD(pθ(zc|Y(X))||qθ(zc|X))] 0.44
LC−DSV AE = LREC + αLKLDs + βLKLDc −cond LC-DSV AE = LREC + αLKLDs + βLKLDc −cond 0.38
(7) (8) Following [15], we use the same training configuration for all experiments: the ADAM optimizer is used with the initial learning rate of 5e-4 [32]. (7) (8) 15]に続いて、すべての実験で同じトレーニング構成を使用する。 adamオプティマイザは5e-4[32]の初期学習レートで使用される。 0.57
Learning rate is decayed every 5 epochs with a factor of 0.95. 学習率は5エポックごとに0.95で減衰する。 0.71
Weight decay is 1e-4, the batch-size is 256. 重量減少は1e-4、バッチサイズは256である。 0.60
Both speaker embedding and frame-wise content embedding are 64-D. 話者埋め込みとフレームワイドコンテンツ埋め込みはどちらも64-Dである。 0.52
α = 0.01 and β = 10 are kept the same as [15]. α = 0.01 と β = 10 は [15] と同じである。 0.88
pθ(zc|Y (X)) = pθ(zc|Y (X)) = 0.44
T Y t=1 T Y t=1 である。 0.39
Pθ(zct|z<t, Y (Xt)) Pθ(zct|z<t, Y(Xt)) 0.47
(6) 4.1. Dataset (6) 4.1. データセット 0.47
4. Experiments Note that YAlign is derived in the supervised manner, which has to reply on the audio-transcription pairs. 4.実験 なお、YAlign は教師付き方式で派生しており、音声書き起こしペアに返信しなければならない。 0.64
However, transcription is not always available in practical usage. しかし、文字の書き起こしは必ずしも実用上利用できない。 0.56
We present a few unsupervised labeling methods as the content bias candidates. コンテンツバイアス候補として,教師なしラベル付け手法をいくつか提示する。 0.55
We note all these methods as Pseudo Labeling (PL), which is also mentioned in [26]. これらの手法は Pseudo Labeling (PL) として, [26] にも言及されている。 0.84
The essence of PL is to derive closedset discrete acoustic units given continuous speech input. PLの本質は、連続音声入力が与えられた閉集合離散音響単位を導出することである。 0.64
We use VCTK corpus for experimental study [23]. VCTKコーパスを実験的に用いた[23]。 0.62
90% of the speakers are used for training and the remaining 10% are used for evaluation [15]. 90%の話者がトレーニングに使われ、残りの10%が評価に使われています [15]。 0.70
Melspectrogram is used as acoustic feature with the window size/hop size of 64ms/16ms, and the feature dimension is 80. メルスペクトログラムは、ウィンドウサイズ/ホップサイズが64ms/16msの音響的特徴として使用され、特徴寸法は80である。 0.56
We randomly select segments of 100 frames (1.6s) from the whole utterances for training. 学習用発話全体から100フレーム(1.6秒)のセグメントをランダムに選択する。 0.70
4.2. Experimental Results 4.2. 実験結果 0.58
C-DSVAE(BEST-RQ) Given the continuous representations as input, VQ-VAE [27] will derive the corresponding quantized vector as well as discrete indices by looking up in a closedset codebook. c-dsvae(best-rq) 連続表現を入力として与えると、vq-vae [27] はクローズドセット符号ブックで見上げることで対応する量子化ベクトルと離散インデックスを導出する。 0.71
We adopt BEST-RQ [28] to extract pseudo labels. 擬似ラベル抽出には BEST-RQ [28] を用いる。 0.69
Specifically, the melspectrogram is linearly projected into 具体的には、メルスペクトログラムは直線的に投影される 0.54
4.2.1. Content embedding and phoneme Classification 4.2.1. コンテンツ埋め込みと音素分類 0.49
Fig.2 demonstrates the t-SNE [24] visualizations of the content embeddings zc from 6 different content embeddings. 第2図は、6つの異なるコンテンツ埋め込みからのコンテンツ埋め込み zc の t-SNE [24] ビジュアライゼーションを示している。 0.67
The purpose of this portion of study is to show how much the underlying この研究の目的は、その基盤がどの程度あるかを示すことである。 0.65
英語(論文から抽出)日本語訳スコア
distribution of zc matches the (almost) ground truth phonetic structure. zc の分布は(ほぼ)基底真理の音声構造と一致する。 0.77
As shown in Fig 2, content embeddings from the DSVAE baseline follow a random uniform distribution. 図2に示すように、DSVAEベースラインからのコンテンツ埋め込みはランダムな均一分布に従う。 0.80
Such distribution is detrimental to preserve the phonetic structure of raw speech. このような分布は生音声の音声構造を維持するために有害である。 0.57
At the same time, melspectrogram captures phone-dependent information due to continuous speech signal nature. 同時に、メルスペクトログラムは連続した音声信号の性質による電話依存情報をキャプチャする。 0.63
C-DSVAE(BEST-RQ) employs a random labelling process for content biasing, thus it justifies that constraint is needed for better performance. C-DSVAE(BEST-RQ)は、コンテンツバイアスにランダムなラベル付けプロセスを採用するため、より良いパフォーマンスのために制約が必要であることを正当化する。 0.54
C-DSVAE(Mel), C-DSVAE(Align) and C-DSVAE(WavLM) deliver much desired content distributions which successfully result in phonetically discriminative embeddings. C-DSVAE(Mel)、C-DSVAE(Align)、C-DSVAE(WavLM)は、多くの所望のコンテンツ分布を提供し、音素的に識別可能な埋め込みを実現する。 0.57
The phonetic structure of raw speech is retained and better disentanglement is expected. 生音声の音韻構造は維持され, より優れた絡み合いが期待できる。 0.59
We also perform phoneme classification to evaluate content embeddings in an objective way. また,コンテンツ埋め込みを客観的に評価するために,音素分類を行う。 0.70
The phoneme classifer is mentioned in Sec. 2.4. 音素のクラスifer は sec. 2.4 で言及されている。 0.52
The consistent conclusion could be drawn that DSVAE and C-DSVAE(BEST-RQ) give lower accuracy. DSVAEとC-DSVAE(BEST-RQ)は精度が低いという一貫した結論が導かれる。 0.66
The reason for which C-DSVAE(Mel), C-DSVAE(Align) and C-DSVAE(WavLM) outperform melspectrogram is that the latter contains the coarse-grained phonetic structure which can be improved via offline clustering. C-DSVAE(Mel)、C-DSVAE(Align)、C-DSVAE(WavLM)がメルスペクトログラムより優れている理由は、後者がオフラインクラスタリングによって改善できる粗粒音素構造を含んでいるからである。
訳抜け防止モード: その理由は C - DSVAE (Mel ), C - DSVAE (Align ) and C - DSVAE (WavLM ) outform melspectrogram 後者は、オフラインクラスタリングによって改善できる粗い粒度の音声構造を含んでいる。
0.81
C-DSVAE(Align) is better than C-DSVAE(Mel) since alignment is obtained with a supervised alignment model. C-DSVAE(Align)は、アライメントモデルによってアライメントが得られるため、C-DSVAE(Mel)よりも優れている。 0.64
C-DSVAE(WavLM) gives the best result because the masked language modeling and iterative clustering tend to capture better phonetic structure where the knowledge can also be transferred from the larger corpus. C-DSVAE(WavLM)は、マスキング言語モデリングと反復クラスタリングが、より大きなコーパスから知識を伝達できるより良い音声構造を捉える傾向があるため、最良の結果をもたらす。 0.75
Setting DSVAE C-DSVAE(BEST-RQ) 設定 DSVAE C-DSVAE(BEST-RQ) 0.58
Melspectrogram C-DSVAE(Mel) C-DSVAE(Align) メルスペクトログラムc-dsvae(mel)c-dsvae( align) 0.52
C-DSVAE(WavLM) C-DSVAE (WavLM) 0.42
Phn ACC % 30.2 35.6 44.1 48.2 51.1 52.8 Phn ACC % 30.2 35.6 44.1 48.2 51.1 52.8 0.32
Table 2: Phoneme Classification with content embeddings. 表2:コンテンツ埋め込みによる音素分類。 0.76
1 6 7 9 11 21 22 30 32 37 39 1 6 7 9 11 21 22 30 32 37 39 0.42
-4 -2 0 2 4 -4 -2 0 2 4 0.41
6 8 12 10 8 6 8 12 10 8 0.43
6 4 2 0 -2 6 4 2 0 -2 0.42
-4 1 6 7 9 11 21 22 30 32 37 39 -4 1 6 7 9 11 21 22 30 32 37 39 0.41
-4 -2 0 2 4 -4 -2 0 2 4 0.41
6 8 10 2 0 6 8 10 2 0 0.43
-2 -4 -6 -8 -2 -4 -6 -8 0.39
-10 -2 1 6 7 9 11 21 22 30 32 37 39 -10 -2 1 6 7 9 11 21 22 30 32 37 39 0.40
0 2 4 6 8 10 0 2 4 6 8 10 0.43
12 14 (a) DSVAE 12 14 (a)DSVAE 0.41
(b) C-DSVAE(BEST-RQ) (b)C-DSVAE(BEST-RQ) 0.77
(c) Melspec 10 (c)メルスペック 10 0.60
5 0 -5 -6 1 6 7 9 11 21 22 30 32 37 39 5 0 -5 -6 1 6 7 9 11 21 22 30 32 37 39 0.41
-4 -2 0 2 4 -4 -2 0 2 4 0.41
6 12 11 10 6 12 11 10 0.43
9 8 7 6 5 4 9 8 7 6 5 4 0.43
3 -6 1 6 7 9 11 21 22 30 32 37 39 3 -6 1 6 7 9 11 21 22 30 32 37 39 0.43
-4 -2 0 2 4 -4 -2 0 2 4 0.41
6 8 1 6 7 9 11 21 22 30 32 37 39 6 8 1 6 7 9 11 21 22 30 32 37 39 0.43
8 6 4 2 0 -2 8 6 4 2 0 -2 0.42
-4 -6 2 0 -2 -4 -6 2 0 -2 0.41
-4 -6 -8 -10 -4 -6 -8 -10 0.39
-4 -2 0 2 4 -4 -2 0 2 4 0.41
6 8 (d) C-DSVAE(Mel) 6 8 (d)C-DSVAE(メル) 0.42
(e) C-DSVAE(Align) (e)C-DSVAE(Align) 0.46
(f) C-DSVAE(WavLM) (f)C-DSVAE(WavLM) 0.46
Figure 2: Visualizations of learned content embeddings. 図2: 学習コンテンツの埋め込みの可視化。 0.78
4.2.2. Voice conversion1 4.2.2. 音声変換1 0.32
We also conduct a mean opinion score (MOS) test to evaluate our system. また,システム評価のために平均世論スコア(MOS)テストを実施している。 0.77
The evaluation corpus setup is the same as [15]. 評価コーパスの設定は[15]と同じである。 0.76
The listener needs to give a score for each sample in a test case according to the criterion: 1 = Bad; 2 = Poor; 3 = Fair; 4 = Good; 5 = Excellent. リスナーは、テストケースの各サンプルに対して、1 = Bad; 2 = Poor; 3 = Fair; 4 = Good; 5 = Excellentという基準に従ってスコアを与える必要がある。 0.83
The final score for each model is calcu- 各モデルの最終スコアはcalcu- 0.73
1Samples of 1サンプル ですから 0.62
voice conversion can be 声 改宗 できる Be 0.67
found at https://jlian2.githu b.io/Improved-Voice- Conversion-with-Cond itionalDSVAE. 見つかった に https://jlian2.githu b.io/Improved-Voice- Conversion-with-Cond itionalDSVAE 0.52
lated by averaging the collected results. 結果の平均化に遅れています 0.59
Table 3 shows the MOS results of different models. 表3は、異なるモデルのMOS結果を示しています。 0.71
As illustrated in the table, HiFi-GAN [21] based DSVAE outperforms the WaveNet [22] with the same acoustic features. 表に示すように、HiFi-GAN [21] ベースの DSVAE は同じ音響特性でWaveNet [22] より優れている。 0.81
Except for C-DSVAE(Mel), our proposed C-DSVAEs outperform the DSVAE baseline by a large margin in terms of naturalness and similarity under both seen to seen and unseen to unseen scenarios, and the MOS results are consistent with phoneme experiments as introduced in Sec 4.2.1. C-DSVAE(Mel)を除いて、提案したC-DSVAEは自然さと類似性の両方でDSVAEベースラインよりも優れており、MOSの結果はSec 4.2.1で導入されたような音素実験と一致している。 0.74
The only exception is C-DSVAE(Mel), which achieves worse naturalness than CDSVAE(BEST-RQ) and worse similarity than DSVAE baseline, the potential reason is that speaker embeddings learned in C-DSVAE(Mel) are not as discriminative as those in either DSVAE baseline or other C-DSVAEs. 唯一の例外は C-DSVAE(Mel) であり、CDSVAE(BEST-RQ) よりも悪い自然性と DSVAE ベースラインよりも悪い類似性を達成している。
訳抜け防止モード: 唯一の例外は、C - DSVAE(Mel )である。 CDSVAE(BEST - RQ )よりも自然性が悪く、DSVAEベースラインよりも類似性が悪い。 潜在的な理由は、C - DSVAE(Mel )で学んだ話者埋め込みが、DSVAEベースラインまたは他のC - DSVAEよりも差別的ではないことである。
0.65
model naturalness similarity モデル 自然性 類似性 0.70
naturalness similarity seen to seen 自然性 類似性 見られている 0.69
unseen to unseen unseen (複数形 unseens) 0.19
AUTOVC [15] AdaIN-VC [15] オートVC [15] アダインVC [15] 0.72
DSVAE [15] DSVAE [15] 0.42
DSVAE(HiFi-GAN) C-DSVAE(BEST-RQ) DSVAE(HiFi-GAN)C-DSV AE(BEST-RQ) 0.70
C-DSVAE(Mel) C-DSVAE(Align) C-DSVAE(メル)C-DSVAE(Align) 0.39
C-DSVAE(WavLM) C-DSVAE (WavLM) 0.42
2.65±0.12 2.98±0.09 3.40±0.07 2.65±0.12 2.98±0.09 3.40±0.07 0.21
3.76±0.07 3.88±0.06 3.86±0.10 4.03±0.04 4.08±0.06 3.76±0.07 3.88±0.06 3.86±0.10 4.03±0.04 4.08±0.06 0.20
2.86±0.09 3.06±0.07 3.56±0.06 2.86±0.09 3.06±0.07 3.56±0.06 0.21
3.83±0.06 3.93±0.07 3.65±0.07 4.12±0.07 4.17±0.06 3.83±0.06 3.93±0.07 3.65±0.07 4.12±0.07 4.17±0.06 0.20
2.47±0.10 2.72±0.11 3.22±0.09 2.47±0.10 2.72±0.11 3.22±0.09 0.21
3.65±0.07 3.82±0.08 3.78±0.05 3.93±0.06 3.98±0.07 3.65±0.07 3.82±0.08 3.78±0.05 3.93±0.06 3.98±0.07 0.20
2.76±0.08 2.96±0.09 3.54±0.07 2.76±0.08 2.96±0.09 3.54±0.07 0.21
3.89±0.05 3.98±0.07 3.58±0.08 4.06±0.07 4.12±0.05 3.89±0.05 3.98±0.07 3.58±0.08 4.06±0.07 4.12±0.05 0.20
Table 3: The MOS (95% CI) test on different models. 表3: MOS (95% CI) は異なるモデルでテストします。 0.85
4.2.3. Speaker verification 4.2.3. 話者検証 0.47
We consider speaker verification as an objective measure to evaluate the VC performance. 本稿では,VCのパフォーマンスを評価する客観的尺度として話者検証を検討する。 0.54
The speaker verification accuracy measures whether the transferred voice belongs to the target speaker. 話者検証精度は、転送された音声が対象話者に属するか否かを測定する。 0.62
For this purpose, we generate 200 source-target pairs and produce 400 target trials from the test set. この目的で、200のソースターゲットペアを生成し、テストセットから400のターゲットトライアルを生成します。 0.70
A stateof-the-art ECAPA-TDNN [33] based speaker verification system is used to verify the speaker identity from the transferred voices. 最先端のECAPA-TDNN[33]ベースの話者検証システムを用いて、転送された音声から話者識別を検証する。
訳抜け防止モード: ECAPA-TDNN [33 ]に基づく話者認証システムの利用状況 話者の身元を 転送された声から確認する。
0.77
Please refer to [34] for more details. 詳細は[34]を参照してください。 0.79
We employ the cosine distance scoring method to perform verification and use 0.42 as the threshold, which is determined by a third-party test set [34]. 検証にはコサイン距離スコア法を用い, 0.42 をしきい値とし, 第三者テストセット [34] で決定する。 0.76
As shown in Table 4, voice transferred from system C-DSVAE(WavLM) achieved the best speaker verification accuracy. 表4に示すように、システムC-DSVAE(WavLM)から転送された音声は、最高の話者認証精度を達成した。 0.62
The trend is similar to the phoneme classification and VC MOS test, which indicates that stable content embeddings with more phonetic structure information boost the VC performance in both subjective and objective evaluations. この傾向は音素分類やVC MOSテストと類似しており、より音素構造情報を持つ安定したコンテンツ埋め込みが主観的および客観的評価においてVCのパフォーマンスを高めることを示している。 0.72
Setting DSVAE C-DSVAE(BEST-RQ) 設定 DSVAE C-DSVAE(BEST-RQ) 0.58
C-DSVAE(Mel) C-DSVAE(Align) C-DSVAE(メル)C-DSVAE(Align) 0.39
C-DSVAE(WavLM) C-DSVAE (WavLM) 0.42
ACC % 85.0 86.3 83.8 91.5 92.3 ACC % 85.0 86.3 83.8 91.5 92.3 0.32
Table 4: Test accuracy for transferred voice verification across different models. 表4: 異なるモデル間で転送された音声検証のテスト精度。 0.77
5. Conclusion This paper proposes C-DSVAE, a novel voice conversion system that introduces the content bias to the prior modeling to enforce the content embeddings to retain the phonetic structure of the raw speech. 5.結論 本稿では,c-dsvaeを提案する。c-dsvaeは,音声の音声構造を維持するためにコンテンツ埋め込みを強制するために,先行モデルにコンテンツバイアスを導入する新しい音声変換システムである。
訳抜け防止モード: 5.結論 本稿では,先行モデルにコンテンツバイアスを導入する新しい音声変換システムであるc-dsvaeを提案する。 コンテンツ埋め込みを強制して生音声の音声構造を保持する。
0.76
The VC experiments on VCTK dateset demonstrate a clear stabilized vocalization and a significantly improved performance with the new content embeddings. VCTKの日付セットに関するVC実験では、明瞭な安定化された発声と、新しいコンテンツ埋め込みによる大幅な性能向上が示されている。
訳抜け防止モード: VCTKデートセットにおけるVC実験は明らかに安定化された発声を示す 新しいコンテンツ埋め込みによってパフォーマンスが大幅に向上した。
0.69
With these contributions and progress, our C-DSVAE achieves stateof-the-art voice conversion performance. これらの貢献と進歩により、我々のC-DSVAEは最先端の音声変換性能を達成する。 0.51
英語(論文から抽出)日本語訳スコア
[20] D. Ulyanov, A. Vedaldi, and V. Lempitsky, “Instance normalization: The missing ingredient for fast stylization,” arXiv preprint arXiv:1607.08022, 2016. D. Ulyanov, A. Vedaldi, V. Lempitsky, “Instance normalization: The missing ingredients for fast stylization” arXiv preprint arXiv:1607.08022, 2016
訳抜け防止モード: [20 ]D. Ulyanov, A. Vedaldi, V. Lempitsky インスタンス正規化 : 高速スタイリングのための欠落成分 arXiv preprint arXiv:1607.08022, 2016
0.81
[21] J. Kong, J. Kim, and J. Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” Advances in Neural Information Processing Systems, vol. 21] j. kong, j. kim, and j. bae, “hifi-gan: generative adversarial networks for efficient and high fidelity speech synthesis” ニューラル情報処理システムにおける進歩。 0.79
33, pp. 17 022– 17 033, 2020. 33, pp. 17 022– 17 033, 2020. 0.46
[22] A. v. d. [22] A. v. D. 0.46
Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu, “Wavenet: A Generative model for raw audio” arXiv preprint arXiv:1609.03499, 2016 0.49
[23] C. Veaux, J. Yamagishi, and K. MacDonald, “Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit,” 2017. C. Veaux, J. Yamagishi, K. MacDonald, “Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning Toolkit”. 2017年5月1日閲覧。 0.87
[24] L. Van der Maaten and G. Hinton, “Visualizing data using t-sne.” [24]L. Van der Maaten と G. Hinton, 「t-sne を用いたデータの可視化」 0.77
Journal of machine learning research, vol. Journal of Machine Learning Research, vol. (英語) 0.70
9, no. 11, 2008. 2008年11月11日。 0.52
[25] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al , “The kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding, no. D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al , “The kaldi speech Recognition Toolkit” in IEEE 2011 Workshop on Automatic speech Recognition and understanding, No。
訳抜け防止モード: [25 ]D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek Y. Qian, P. Schwarz et al, “The kaldi speech Recognition Toolkit” IEEE 2011のワークショップでは、自動音声認識と理解について論じている。
0.88
CONF. IEEE Signal Processing Society, 2011. CONF IEEE信号処理協会、2011年。 0.51
[26] W. -N. [26]w。 -N。 0.38
Hsu, B. Bolte, Y. Hsu, B. Bolte, Y。 0.46
-H. H. Tsai, K. Lakhotia, R. Salakhutdinov, and A. Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. -h。 H.Tsai, K. Lakhotia, R. Salakhutdinov, A. Mohamed, “Hubert: Self-supervised speech representation learning by masked prediction of hidden units”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.
訳抜け防止モード: -h。 H. Tsai, K. Lakhotia, R. Salakhutdinov, A. Mohamed 「ヒューバート : 隠蔽単位の隠蔽予測による教師付き音声表現学習」 IEEE / ACM Transactions on Audio, Speech, and Language Processing,vol
0.79
29, pp. 3451–3460, 2021. 29, pp. 3451–3460, 2021。 0.93
[27] A. Van Den Oord, O. Vinyals et al , “Neural discrete representation learning,” Advances in neural information processing systems, vol. 27] a. van den oord, o. vinyals et al, “neural discrete representation learning”, advances in neural information processing systems, vol. ニューラル情報処理システム。 0.80
30, 2017. [28] C. 30, 2017. [28]C。 0.40
-C. Chiu, J. Qin, Y. Zhang, J. Yu, and Y. Wu, “Self-supervised learning with random-projection quantizer for speech recognition,” arXiv preprint arXiv:2202.01855, 2022. -C。 Chiu, J. Qin, Y. Zhang, J. Yu, Y. Wu, “Self-supervised learning with random-projection Quantizer for speech Recognition” arXiv preprint arXiv:2202.01855, 2022。 0.42
[29] S. Chen, C. Wang, Z. Chen, Y. Wu, S. Liu, Z. Chen, J. Li, N. Kanda, T. Yoshioka, X. Xiao et al , “Wavlm: Large-scale selfsupervised pre-training for full stack speech processing,” arXiv preprint arXiv:2110.13900, 2021. [29]S. Chen, C. Wang, Z. Chen, Y. Wu, S. Liu, Z. Chen, J. Li, N. Kanda, T. Yoshioka, X. Xiao et al , “Wavlm: Large-scale selfsupervised pre-training for full stack speech processing” arXiv preprint arXiv:2110.13900, 2021。 0.44
[30] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: an asr corpus based on public domain audio books,” in 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). V. Panayotov, G. Chen, D. Povey, S. Khudanpur, “Librispeech: an asr corpus based on public domain audio books”. 2015年のIEEE International Conference on acoustics, speech and signal processing (ICASSP)。
訳抜け防止モード: [30 ] V. Panayotov, G. Chen, D. Povey, そしてS.Khudanpurは、”Librispeech: an asr corpus based on public domain audio books”と言った。 2015年、IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) に参加。
0.85
IEEE, 2015, pp. 5206–5210. IEEE, 2015, pp. 5206–5210。 0.91
[31] D. Arthur and S. Vassilvitskii, “k-means++: The advantages of D.Arthur and S. Vassilvitskii, “k-means++: The advantage of the most 0.38
careful seeding,” Stanford, Tech. とスタンフォード工科大学は述べている。 0.53
Rep. , 2006. 代表。 , 2006. 0.40
[32] D. for https://arxiv.org/ab s/1412.6980 [32] D. for https://arxiv.org/ab s/1412.6980 0.26
P. Kingma stochastic optimization,” P. Kingma 最適化” 0.52
and J. Ba, “Adam: そして J. Ba 「アダム」 0.52
A method [Online]. 方法[オンライン]. 0.62
Available: 2014. 利用可能。 2014. 0.45
[33] B. Desplanques, J. Thienpondt, and K. Demuynck, “Ecapatdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification,” arXiv preprint arXiv:2005.07143, 2020. B. Desplanques, J. Thienpondt, K. Demuynck, “Ecapatdnn: Emphasized channel attention, propagation and aggregate in tdnn based speaker validation, arXiv preprint arXiv:2005.07143, 2020”。
訳抜け防止モード: [33 ]B. Desplanques, J. Thienpondt, K. Demuynck Ecapatdnn : tdnnに基づく話者検証におけるチャネルアテンション, 伝播, 凝集の強調, arXiv preprint arXiv:2005.07143, 2020
0.86
[34] C. Zhang, J. Shi, C. Weng, M. Yu, and D. Yu, “Towards end-toend speaker diarization with generalized neural speaker clustering,” in IEEE ICASSP. ieee icasspの[34] c. zhang氏, j. shi氏, c. weng氏, m. yu氏, d. yu氏は,ieee icasspで,“汎用ニューラルネットワーククラスタリングによるエンドツーエンドの話者ダイアリゼーションに向かって”と述べている。
訳抜け防止モード: [34 ]C.張、J.Shi、C.Weng、M.Yu、 そしてD. Yu氏は,“一般化されたニューラルスピーカークラスタリングによるエンドツーエンドの話者ダイアリゼーションを目指す”。 IEEE ICASSP で。
0.64
IEEE, 2022. IEEE、2022年。 0.76
6. References [1] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical modeling to deep learning,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020. 6.参考文献 [1] B. Sisman, J. Yamagishi, S. King, H. Li, “An overview of voice conversion and its Challenge: from statistics modeling to Deep Learning”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020”。
訳抜け防止モード: 6.参考文献 [1]B.シスマン、J.山岸、S.キング H. Li は「音声変換の概要とその課題 : 統計的モデリングからディープラーニングまで」と述べている。 IEEE / ACM Transactions on Audio, Speech, and Language Processing, 2020
0.81
[2] F. Bahmaninezhad, C. Zhang, and J. H. Hansen, “Convolutional neural network based speaker de-identification.” in ISCA Odyssey, 2018. [2] F. Bahmaninezhad, C. Zhang, J. H. Hansen, “Convolutional Neural Network based speaker de-identification.” in ISCA Odyssey, 2018
訳抜け防止モード: [2 ]F. Bahmaninezhad, C. Zhang, J. H. Hansen ISCA Odyssey, 2018 における「畳み込みニューラルネットワークに基づく話者識別」
0.84
[3] L. Zhang, C. Yu, H. Lu, C. Weng, C. Zhang, Y. Wu, X. Xie, Z. Li, and D. Yu, “Durian-sc: Duration informed attention network based singing voice conversion system,” arXiv preprint arXiv:2008.03009, 2020. He3] L. Zhang, C. Yu, H. Lu, C. Weng, C. Zhang, Y. Wu, X. Xie, Z. Li, D. Yu, “Durian-sc: Duration informed attention network based singing voice conversion system” arXiv preprint arXiv:2008.03009, 2020。 0.45
[4] D. J. Berndt and J. Clifford, “Using dynamic time warping to find patterns in time series.” in KDD workshop, vol. D. J. Berndt 氏と J. Clifford 氏は KDD ワークショップ で,“時系列のパターンを見つけるための動的時間ワープ” について説明している。 0.68
10, no. 16. Seattle, WA, USA:, 1994, pp. 359–370. 10番 16番 シアトル, WA, USA:, 1994, pp. 359–370。 0.61
[5] J. -X. Zhang, Z. 5]j。 -X。 zhang (複数形 zhangs) 0.33
-H. Ling, L. -h。 Ling, L。 0.58
-J. Liu, Y. Jiang, and L. -j。 Liu, Y. Jiang, and L。 0.81
-R. Dai, “Sequence-to-sequence acoustic modeling for voice conversion,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. -R。 Dai, “Sequence-to-Sequence Acoustic Modeling for voice conversion”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol。
訳抜け防止モード: -R。 dai, “ sequence - to - sequence acoustic modeling for voice conversion” ieee / acm 音声、音声、言語処理に関するトランザクション。
0.60
27, no. 3, pp. 631–644, 2019. 27, No. 3, pp. 631–644, 2019。 0.48
[6] L. Sun, K. Li, H. Wang, S. Kang, and H. Meng, “Phonetic posteriorgrams for many-to-one voice conversion without parallel data training,” in 2016 IEEE International Conference on Multimedia and Expo (ICME). 6] l. sun, k. li, h. wang, s. kang, h. meng, “phonetic posteriorgrams for many-to-one voice conversion without parallel data training” 2016 ieee international conference on multimedia and expo (icme) で発表された。 0.80
IEEE, 2016, pp. 1–6. 2016年、p.1-6。 0.42
[7] S. Liu, J. Zhong, L. Sun, X. Wu, X. Liu, and H. Meng, “Voice conversion across arbitrary speakers based on a single target-speaker utterance,” Proc. 7] s. liu, j. zhong, l. sun, x. wu, x. liu, h. meng, “単一のターゲット話者発話に基づいて任意の話者間の音声変換”。 0.68
Interspeech 2018, pp. 496–500, 2018. 2018年、p.496-500。 0.53
[8] H. Guo, H. Lu, N. Hu, C. Zhang, S. Yang, L. Xie, D. Su, and D. Yu, “Phonetic posteriorgrams based many-to-many singing voice conversion via adversarial training,” arXiv preprint arXiv:2012.01837, 2020. H.Guo, H. Lu, N. Hu, C. Zhang, S. Yang, L. Xie, D. Su, D. Yu, “Phonetic posteriorgrams based many-to-many singing voice conversion via adversarial training” arXiv preprint arXiv:2012.01837, 2020”. 2020年3月3日閲覧。
訳抜け防止モード: [8 ]H.Guo,H. Lu,N. Hu, C. Zhang, S. Yang, L. Xie, D. Su とD. Yuは言う。 声道後音節は、多くの -to - 多くの歌唱音声変換を相手の訓練によって行う」。 arXiv preprint arXiv:2012.01837 , 2020
0.65
[9] M. Zhang, Y. Zhou, L. Zhao, and H. Li, “Transfer learning from speech synthesis to voice conversion with non-parallel training data,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 9] M. Zhang, Y. Zhou, L. Zhao, H. Li, “音声合成から非並列学習データによる音声変換へのトランスファー学習”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol。 0.89
29, pp. 1290–1302, 2021. 29, pp. 1290–1302, 2021。 0.93
[10] K. Qian, Y. Zhang, S. Chang, X. Yang, and M. HasegawaJohnson, “Autovc: Zero-shot voice style transfer with only autoencoder loss,” in International Conference on Machine Learning. K. Qian, Y. Zhang, S. Chang, X. Yang, M. HasegawaJohnson, “Autovc: Zero-shot voice style Transfer with only autoencoder loss”. International Conference on Machine Learning. (英語)
訳抜け防止モード: 10 ] k. qian, y. zhang, s. chang, x. yang, and m. hasegawajohnson, “autovc : zero - shot voice style transfer with only autoencoder loss” 機械学習に関する国際会議に出席。
0.84
PMLR, 2019, pp. 5210–5219. pmlr, 2019, pp. 5210-5219。 0.75
[11] J. -c. [11] J。 -c。 0.39
Chou, C. -c. Chou, C。 -c。 0.41
Yeh, and H. -y. とHは言う。 そうです。 0.54
Lee, “One-shot voice conversion by separating speaker and content representations with instance normalization,” arXiv preprint arXiv:1904.05742, 2019. Lee, “One-shot voice conversion by split speaker and content representations with instance normalization” arXiv preprint arXiv:1904.05742, 2019。 0.46
[12] H. Kameoka, T. Kaneko, K. Tanaka, and N. Hojo, “Stargan-vc: Non-parallel many-to-many voice conversion using star generative adversarial networks,” in 2018 IEEE Spoken Language Technology Workshop (SLT). 12] h. kameoka, t. kaneko, k. tanaka, n. hojo, “stargan-vc: non-parallel many-to-many voice conversion using star generative adversarial networks” in 2018 ieee spoken language technology workshop (slt)
訳抜け防止モード: [12]H.亀岡、T.金子、K.田中 N.hoho, “スターガン - vc : Non - parallel many - to - many voice conversion using star generative adversarial network”. 2018年、IEEE Spoken Language Technology Workshop (SLT)。
0.71
IEEE, 2018, pp. 266–273. IEEE, 2018, pp. 266–273。 0.45
[13] T. Kaneko and H. Kameoka, “Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks,” in 2018 26th European Signal Processing Conference (EUSIPCO). 第26回欧州信号処理会議(eusipco)では,[13] t. kaneko と h. kameoka が,“cyclegan-vc: non-parallel voice conversion using cycle- consistent adversarial networks”と題した講演を行った。
訳抜け防止モード: 13 ] kaneko, h. kameoka, "cyclegan - vc : non-parallel voice conversion using cycle- consistent adversarial networks" 2018年 - 第26回欧州信号処理会議(eusipco)が開催。
0.77
IEEE, 2018, pp. 2100–2104. IEEE, 2018, pp. 2100-2104。 0.84
[14] Y. A. Li, A. Zare, and N. Mesgarani, “Starganv2-vc: A diverse, unsupervised, non-parallel framework for natural-sounding voice conversion,” in Interspeech, 2021. Y. A. Li, A. Zare, N. Mesgarani, “Starganv2-vc: A various, unsupervised, non-parallel framework for natural-sounding voice conversion”. Interspeech, 2021年。
訳抜け防止モード: [14 ]Y. A. Li, A. Zare, N. Mesgarani スターガン2-vc : 自然音声変換のための多様で教師なし、非並列なフレームワーク」 インタースペーチ』2021年。
0.73
[15] J. Lian, C. Zhang, and D. Yu, “Robust disentangled variational speech representation learning for zero-shot voice conversion,” in IEEE ICASSP. J. Lian, C. Zhang, D. Yu, “Robust disentangled variational speech representation learning for zero-shot voice conversion” in IEEE ICASSP。
訳抜け防止モード: [15 ]J.Lian、C.Zhang、D.Yu 「ゼロ・ショット音声変換のためのロバストなアンタングル型変分音声表現学習」 IEEE ICASSP で。
0.68
IEEE, 2022. IEEE、2022年。 0.76
[16] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” 16] d. p. kingma and m. welling, "auto-encoding variational bayes" 0.47
2014. [17] Y. Li and S. Mandt, “Disentangled sequential autoencoder,” arXiv 2014. [17]Li,S. Mandt, “Disentangled sequence autoencoder, arXiv 0.39
preprint arXiv:1803.02991, 2018. arXiv:1803.02991, 2018 0.37
[18] Y. Zhu, M. R. Min, A. Kadav, and H. P. Graf, “S3vae: Selfsupervised sequential vae for representation disentanglement and data generation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6538–6547. [18] Y. Zhu, M. R. Min, A. Kadav, H. P. Graf, “S3vae: Selfsupervised sequence vae for representation disentanglement and data generation” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6538–6547。
訳抜け防止モード: [18 ]Y. Zhu, M. R. Min, A. Kadav, H. P. Graf 「S3vae : 表現のゆがみとデータ生成のための自己監督型シーケンシャルベイ」 IEEE / CVF Conference on Computer Vision に参加して and Pattern Recognition , 2020 , pp. 6538–6547.
0.85
[19] J. Bai, W. Wang, and C. P. Gomes, “Contrastively disentangled sequential variational autoencoder,” Advances in Neural Information Processing Systems, vol. 19] j. bai, w. wang, c. p. gomes, “contrastively disentangled sequential variational autoencoder”, ニューラル情報処理システムにおける進歩。 0.72
34, 2021. 34, 2021. 0.43
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。