論文の概要: Neural Multi-Speaker Voice Cloning for Nepali in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2601.18694v1
- Date: Mon, 26 Jan 2026 17:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.956425
- Title: Neural Multi-Speaker Voice Cloning for Nepali in Low-Resource Settings
- Title(参考訳): 低音源環境下でのネパール語のためのニューラルマルチスピーカ音声クローニング
- Authors: Aayush M. Shrestha, Aditya Bajracharya, Projan Shakya, Dinesh B. Kshatri,
- Abstract要約: 本研究はネパール語話者を対象とした数発の音声クローニングシステムを提案する。
最小限のデータを用いて、Devanagariテキストから特定の話者の声で音声を合成するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research presents a few-shot voice cloning system for Nepali speakers, designed to synthesize speech in a specific speaker's voice from Devanagari text using minimal data. Voice cloning in Nepali remains largely unexplored due to its low-resource nature. To address this, we constructed separate datasets: untranscribed audio for training a speaker encoder and paired text-audio data for training a Tacotron2-based synthesizer. The speaker encoder, optimized with Generative End2End loss, generates embeddings that capture the speaker's vocal identity, validated through Uniform Manifold Approximation and Projection (UMAP) for dimension reduction visualizations. These embeddings are fused with Tacotron2's text embeddings to produce mel-spectrograms, which are then converted into audio using a WaveRNN vocoder. Audio data were collected from various sources, including self-recordings, and underwent thorough preprocessing for quality and alignment. Training was performed using mel and gate loss functions under multiple hyperparameter settings. The system effectively clones speaker characteristics even for unseen voices, demonstrating the feasibility of few-shot voice cloning for the Nepali language and establishing a foundation for personalized speech synthesis in low-resource scenarios.
- Abstract(参考訳): 本研究は, ネパール語話者を対象に, 最小データを用いて, デバナガリ文字から特定の話者の声から音声を合成する数発の音声クローニングシステムを提案する。
ネパールにおける音声のクローニングは、その低資源性のため、ほとんど探索されていない。
そこで我々は、話者エンコーダを訓練するための無転写音声と、Tacotron2ベースのシンセサイザーを訓練するためのペア付きテキストオーディオデータという、別々のデータセットを構築した。
Generative End2End Losに最適化された話者エンコーダは、一様マニフォールド近似と投影(UMAP)によって検証された話者の声のアイデンティティをキャプチャーする埋め込みを生成する。
これらの埋め込みはTacotron2のテキスト埋め込みと融合してメル・スペクトログラムを生成し、WaveRNNボコーダを使用してオーディオに変換する。
音声データは、自己記録を含む様々なソースから収集され、品質とアライメントのための徹底的な前処理が行われた。
複数のハイパーパラメータ設定下でメルとゲート損失関数を用いて訓練を行った。
本システムは,未確認音声であっても話者特性を効果的にクローンし,ネパール語の音声クローンの実現可能性を示し,低リソースシナリオにおけるパーソナライズされた音声合成の基礎を確立する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language [0.4810348726854312]
ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野における研究のトピックである。
主な目的は、ネパールアクセントで音声出力を生成する音声クローニングシステムを作ることである。
論文 参考訳(メタデータ) (2024-08-19T16:15:09Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。