論文の概要: Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language
- arxiv url: http://arxiv.org/abs/2408.10128v2
- Date: Fri, 23 Aug 2024 16:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 17:10:58.739720
- Title: Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language
- Title(参考訳): ネパール語における音声のクローン化の促進:低リソース言語における転送学習の活用
- Authors: Manjil Karki, Pratik Shakya, Sandesh Acharya, Ravi Pandit, Dinesh Gothe,
- Abstract要約: ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野における研究のトピックである。
主な目的は、ネパールアクセントで音声出力を生成する音声クローニングシステムを作ることである。
- 参考スコア(独自算出の注目度): 0.4810348726854312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice cloning is a prominent feature in personalized speech interfaces. A neural vocal cloning system can mimic someone's voice using just a few audio samples. Both speaker encoding and speaker adaptation are topics of research in the field of voice cloning. Speaker adaptation relies on fine-tuning a multi-speaker generative model, which involves training a separate model to infer a new speaker embedding used for speaker encoding. Both methods can achieve excellent performance, even with a small number of cloning audios, in terms of the speech's naturalness and similarity to the original speaker. Speaker encoding approaches are more appropriate for low-resource deployment since they require significantly less memory and have a faster cloning time than speaker adaption, which can offer slightly greater naturalness and similarity. The main goal is to create a vocal cloning system that produces audio output with a Nepali accent or that sounds like Nepali. For the further advancement of TTS, the idea of transfer learning was effectively used to address several issues that were encountered in the development of this system, including the poor audio quality and the lack of available data.
- Abstract(参考訳): 音声のクローン化は、パーソナライズされた音声インタフェースにおいて顕著な特徴である。
ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野での研究のトピックである。
話者適応は、話者符号化に使用される新しい話者埋め込みを推論するために、個別のモデルを訓練する多話者生成モデルを微調整することに依存する。
どちらの手法も、音声の自然さと元の話者との類似性の観点から、少数のクローン音声であっても、優れた性能を達成することができる。
話者エンコーディングアプローチは、メモリを著しく少なくし、話者適応よりも高速なクローニング時間を持つため、低リソースデプロイメントに適している。
主な目標は、ネパール語のアクセントやネパール語の発音で音声を出力する音声クローニングシステムを作ることだ。
TTSのさらなる進歩のために、トランスファーラーニングというアイデアは、低音質やデータ不足など、このシステムの開発で遭遇したいくつかの問題に効果的に対処するために用いられた。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Meta-Voice: Fast few-shot style transfer for expressive voice cloning
using meta learning [37.73490851004852]
テキスト音声合成(TTS)における音声クローンのための少数ショットスタイル転送の課題は、非常に限られた量の中立データを用いて、任意の音源話者の発話スタイルをターゲット話者の音声に転送することを目的としている。
学習アルゴリズムは、数発の音声クローンと話者/韻律のアンタングルを同時に扱う必要があるため、これは非常に難しい作業である。
本稿では,メタラーニングを用いた音声のクローン処理のための高速な数ショットスタイル転送手法を提案する。
論文 参考訳(メタデータ) (2021-11-14T01:30:37Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。