論文の概要: Hierarchical disentangled representation learning for singing voice
conversion
- arxiv url: http://arxiv.org/abs/2101.06842v1
- Date: Mon, 18 Jan 2021 02:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:49:08.032906
- Title: Hierarchical disentangled representation learning for singing voice
conversion
- Title(参考訳): 歌声変換のための階層的不整合表現学習
- Authors: Naoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji
- Abstract要約: 本論文では,複数の解像を独立して学習できる階層的表現学習を提案する。
学習された不整合表現を用いて、提案手法は低解像度から高解像度のSVCを段階的に実行する。
- 参考スコア(独自算出の注目度): 11.965805515064444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conventional singing voice conversion (SVC) methods often suffer from
operating in high-resolution audio owing to a high dimensionality of data. In
this paper, we propose a hierarchical representation learning that enables the
learning of disentangled representations with multiple resolutions
independently. With the learned disentangled representations, the proposed
method progressively performs SVC from low to high resolutions. Experimental
results show that the proposed method outperforms baselines that operate with a
single resolution in terms of mean opinion score (MOS), similarity score, and
pitch accuracy.
- Abstract(参考訳): 従来の歌唱音声変換(SVC)法は、高次元データによる高解像度音声の操作に悩まされることが多い。
本稿では,複数の解像度を持つ不連続表現を独立に学習できる階層表現学習を提案する。
学習された不整合表現を用いて、提案手法は低解像度から高解像度のSVCを段階的に実行する。
実験の結果,提案手法は平均評価スコア(MOS),類似度スコア,ピッチ精度において,単一解像度で動作するベースラインよりも優れていた。
関連論文リスト
- Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion [28.085498706505774]
音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-01-22T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。