論文の概要: Disentangleing Content and Fine-grained Prosody Information via Hybrid
ASR Bottleneck Features for Voice Conversion
- arxiv url: http://arxiv.org/abs/2203.12813v1
- Date: Thu, 24 Mar 2022 02:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:42:05.500855
- Title: Disentangleing Content and Fine-grained Prosody Information via Hybrid
ASR Bottleneck Features for Voice Conversion
- Title(参考訳): 音声変換のためのハイブリッドasrボトルネック特徴を用いたコンテンツの絡み合いと細粒度韻律情報
- Authors: Xintao Zhao, Feng Liu, Changhe Song, Zhiyong Wu, Shiyin Kang, Deyi
Tuo, Helen Meng
- Abstract要約: CTC-BNFsとCE-BNFsから抽出したハイブリッドボトルネック特徴を用いたノン・ツー・ワンVC法を提案する。
実験の結果,提案手法はベースライン法よりも類似性,自然性,品質が高いことがわかった。
- 参考スコア(独自算出の注目度): 39.658871267168486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parallel data voice conversion (VC) have achieved considerable
breakthroughs recently through introducing bottleneck features (BNFs) extracted
by the automatic speech recognition(ASR) model. However, selection of BNFs have
a significant impact on VC result. For example, when extracting BNFs from ASR
trained with Cross Entropy loss (CE-BNFs) and feeding into neural network to
train a VC system, the timbre similarity of converted speech is significantly
degraded. If BNFs are extracted from ASR trained using Connectionist Temporal
Classification loss (CTC-BNFs), the naturalness of the converted speech may
decrease. This phenomenon is caused by the difference of information contained
in BNFs. In this paper, we proposed an any-to-one VC method using hybrid
bottleneck features extracted from CTC-BNFs and CE-BNFs to complement each
other advantages. Gradient reversal layer and instance normalization were used
to extract prosody information from CE-BNFs and content information from
CTC-BNFs. Auto-regressive decoder and Hifi-GAN vocoder were used to generate
high-quality waveform. Experimental results show that our proposed method
achieves higher similarity, naturalness, quality than baseline method and
reveals the differences between the information contained in CE-BNFs and
CTC-BNFs as well as the influence they have on the converted speech.
- Abstract(参考訳): 自動音声認識(ASR)モデルにより抽出されたボトルネック特徴(BNF)を導入することで,近年,非並列データ音声変換(VC)は大きなブレークスルーを遂げている。
しかし、BNFの選択はVCの結果に大きな影響を及ぼす。
例えば、クロスエントロピー損失(CE-BNF)で訓練されたASRからBNFを抽出し、VCシステムのトレーニングのためにニューラルネットワークに入力すると、変換された音声の音色類似性が著しく低下する。
接続性時間分類損失(CTC-BNF)を用いて訓練したASRからBNFを抽出すると、変換された音声の自然性が低下する可能性がある。
この現象はBNFに含まれる情報の違いによって引き起こされる。
本稿では,CTC-BNFsとCE-BNFsから抽出したハイブリッドボトルネック特徴を用いた任意のVC手法を提案する。
CE-BNFから韻律情報とCTC-BNFから内容情報を抽出するために, 漸進反転層とインスタンス正規化を用いた。
オートリグレッシブデコーダとhifi-ganボコーダを使用して高品質波形を生成する。
実験の結果,提案手法は,CE-BNF と CTC-BNF の類似度,自然性,品質がベースライン法よりも高く,CE-BNF と CTC-BNF に含まれる情報と,変換音声に与える影響が明らかとなった。
関連論文リスト
- Transformer Neural Autoregressive Flows [48.68932811531102]
正規化フロー(NF)を用いて密度推定を行う。
我々はトランスフォーマーニューラルオートレグレッシブフロー(T-NAF)と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを利用する新しい解を提案する。
論文 参考訳(メタデータ) (2024-01-03T17:51:16Z) - Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Infomax Neural Joint Source-Channel Coding via Adversarial Bit Flip [41.28049430114734]
本稿では、ニューラルジョイント・ソース・チャネル符号化方式の安定性と堅牢性を改善するために、Infomax Adversarial-Bit-Flip (IABF) と呼ばれる新しい正規化手法を提案する。
我々のIABFは、圧縮と誤り訂正のベンチマークの両方で最先端のパフォーマンスを達成でき、ベースラインをかなりの差で上回ることができる。
論文 参考訳(メタデータ) (2020-04-03T10:00:02Z) - Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。
出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文 参考訳(メタデータ) (2019-11-29T19:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。