論文の概要: Speaking Style Conversion With Discrete Self-Supervised Units
- arxiv url: http://arxiv.org/abs/2212.09730v1
- Date: Mon, 19 Dec 2022 18:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:36:19.308986
- Title: Speaking Style Conversion With Discrete Self-Supervised Units
- Title(参考訳): 離散的自己監督単位を用いた話し方変換
- Authors: Gallil Maimon, Yossi Adi
- Abstract要約: 音色だけでなく韻律情報(リズムやピッチの変化など)を対象話者に変換する手法を提案する。
提案手法は,音声を離散単位に符号化する事前学習型自己教師型モデルに基づく。
- 参考スコア(独自算出の注目度): 21.19785690690611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice Conversion (VC) is the task of making a spoken utterance by one speaker
sound as if uttered by a different speaker, while keeping other aspects like
content unchanged. Current VC methods, focus primarily on spectral features
like timbre, while ignoring the unique speaking style of people which often
impacts prosody. In this study, we introduce a method for converting not only
the timbre, but also prosodic information (i.e., rhythm and pitch changes) to
those of the target speaker. The proposed approach is based on a pretrained,
self-supervised, model for encoding speech to discrete units, which make it
simple, effective, and easy to optimise. We consider the many-to-many setting
with no paired data. We introduce a suite of quantitative and qualitative
evaluation metrics for this setup, and empirically demonstrate the proposed
approach is significantly superior to the evaluated baselines. Code and samples
can be found under https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ .
- Abstract(参考訳): 音声変換(Voice Conversion, VC)とは、ある話者による音声の発声を、別の話者による発声のように行う作業である。
現在のVCメソッドは、主に音色のようなスペクトル機能に焦点を当て、しばしば韻律に影響を与える独特の話し方を無視している。
本研究では,音色だけでなく,韻律情報(リズムやピッチの変化など)を対象話者に変換する手法を提案する。
提案手法は、音声を離散単位に符号化する事前訓練された自己教師型モデルに基づいており、単純で効果的で容易に最適化できる。
ペアデータのない多対多設定を考える。
そこで本研究では, 定量的, 質的評価指標の組を紹介するとともに, 提案手法が評価基準よりも有意に優れていることを実証的に示す。
コードとサンプルはhttps://pages.cs.huji.ac.il/adiyoss-lab/dissc/で確認できる。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training [3.9306467064810438]
ワンショット音声変換は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。
既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。
本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:21:19Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。