論文の概要: CinC-GAN for Effective F0 prediction for Whisper-to-Normal Speech
Conversion
- arxiv url: http://arxiv.org/abs/2008.07788v1
- Date: Tue, 18 Aug 2020 07:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:16:48.971404
- Title: CinC-GAN for Effective F0 prediction for Whisper-to-Normal Speech
Conversion
- Title(参考訳): CinC-GANによるWhisper-to-Normal音声変換のためのF0予測
- Authors: Maitreya Patel, Mirali Purohit, Jui Shah, and Hemant A. Patil
- Abstract要約: WHSP2SPCH変換のためのCycle-in-Cycle GAN(CinC-GAN)を提案する。
MCCマッピングの精度を損なうことなくF0予測の有効性を高めるように設計されている。
提案手法を非並列設定で評価し、話者特化タスクとジェンダー特化タスクに基づいて分析する。
- 参考スコア(独自算出の注目度): 15.962908864494745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Generative Adversarial Networks (GAN)-based methods have shown
remarkable performance for the Voice Conversion and WHiSPer-to-normal SPeeCH
(WHSP2SPCH) conversion. One of the key challenges in WHSP2SPCH conversion is
the prediction of fundamental frequency (F0). Recently, authors have proposed
state-of-the-art method Cycle-Consistent Generative Adversarial Networks
(CycleGAN) for WHSP2SPCH conversion. The CycleGAN-based method uses two
different models, one for Mel Cepstral Coefficients (MCC) mapping, and another
for F0 prediction, where F0 is highly dependent on the pre-trained model of MCC
mapping. This leads to additional non-linear noise in predicted F0. To suppress
this noise, we propose Cycle-in-Cycle GAN (i.e., CinC-GAN). It is specially
designed to increase the effectiveness in F0 prediction without losing the
accuracy of MCC mapping. We evaluated the proposed method on a non-parallel
setting and analyzed on speaker-specific, and gender-specific tasks. The
objective and subjective tests show that CinC-GAN significantly outperforms the
CycleGAN. In addition, we analyze the CycleGAN and CinC-GAN for unseen speakers
and the results show the clear superiority of CinC-GAN.
- Abstract(参考訳): 近年,GAN(Generative Adversarial Networks)に基づく手法は,Voice ConversionとWHiSPer-to-normal SPeeCH(WHSP2SPCH)変換において顕著な性能を示した。
WHSP2SPCH変換の重要な課題の1つは、基本周波数(F0)の予測である。
近年,WHSP2SPCH変換のための最新の手法であるCycleGANを提案する。
CycleGAN に基づく手法では,Mel Cepstral Coefficients (MCC) マッピングと F0 予測の2つのモデルを用いており,F0 は MCC マッピングの事前学習モデルに強く依存している。
これにより予測されたF0の非線形ノイズが増大する。
このノイズを抑制するため、CinC-GAN(Cycle-in-Cycle GAN)を提案する。
MCCマッピングの精度を損なうことなくF0予測の有効性を高めるように設計されている。
提案手法を非平行設定で評価し,話者別,性別別,課題別に分析した。
CinC-GANはCycleGANよりも有意に優れていた。
さらに,未知話者に対するCycleGANとCinC-GANを分析し,CinC-GANの明確な優位性を示した。
関連論文リスト
- Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - CMA-ES with Adaptive Reevaluation for Multiplicative Noise [1.3108652488669732]
CMA-ES (RA-CMA-ES) は,2つの更新方向を半分の値を用いて計算し,その2つの更新方向の推定相関に再評価の回数を適応させる。
数値シミュレーションにより, RA-CMA-ESは乗算雑音下で比較法より優れていた。
論文 参考訳(メタデータ) (2024-05-19T07:42:10Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Extending GCC-PHAT using Shift Equivariant Neural Networks [17.70159660438739]
位相変換(GCC-PHAT)と一般化された相互相関に基づく手法が話者定位に広く採用されている。
本稿では、シフト同変ニューラルネットワークを用いて受信信号をフィルタリングするGCC-PHATの拡張手法を提案する。
本モデルでは,GCC-PHATの誤差を常に低減し,正確な時間遅延回復を保証している。
論文 参考訳(メタデータ) (2022-08-09T10:31:10Z) - An Evaluation Study of Generative Adversarial Networks for Collaborative
Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。
この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文 参考訳(メタデータ) (2022-01-05T20:53:27Z) - Using Kalman Filter The Right Way: Noise Estimation Is Not Optimal [46.556605821252276]
kfの仮定を少しでも破っても、効果のあるノイズを著しく修正できることを示す。
KFの対称および正定値(SPD)パラメータに勾配に基づく最適化を効率的に適用する方法を提案する。
論文 参考訳(メタデータ) (2021-04-06T08:59:15Z) - A Novel Cluster Classify Regress Model Predictive Controller
Formulation; CCR-MPC [0.0]
機械学習の分野において,高度な手法を用いた新しいデータ駆動モデル予測制御器を開発した。
目的は、外部の気象状態によって間接的に影響を受ける、所望の室内設定温度を調整するための制御信号を調整することである。
論文 参考訳(メタデータ) (2021-01-15T12:14:54Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。