論文の概要: A Lightweight Pipeline for Noisy Speech Voice Cloning and Accurate Lip Sync Synthesis
- arxiv url: http://arxiv.org/abs/2509.12831v1
- Date: Tue, 16 Sep 2025 08:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.978474
- Title: A Lightweight Pipeline for Noisy Speech Voice Cloning and Accurate Lip Sync Synthesis
- Title(参考訳): 雑音音声のクローン化と高精度リップシンク合成のための軽量パイプライン
- Authors: Javeria Amir, Farwa Attaria, Mah Jabeen, Umara Noor, Zahid Rashid,
- Abstract要約: 本稿では,Tortoiseテキストから音声への新たなモジュールパイプラインを提案する。
高忠実度ゼロショット音声クローニングが可能な変圧器を用いた潜時拡散モデルである。
我々は、高能率なリアルタイムリップ同期を実現するために、軽量な生成逆ネットワークアーキテクチャを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in voice cloning and talking head generation demonstrate impressive capabilities in synthesizing natural speech and realistic lip synchronization. Current methods typically require and are trained on large scale datasets and computationally intensive processes using clean studio recorded inputs that is infeasible in noisy or low resource environments. In this paper, we introduce a new modular pipeline comprising Tortoise text to speech. It is a transformer based latent diffusion model that can perform high fidelity zero shot voice cloning given only a few training samples. We use a lightweight generative adversarial network architecture for robust real time lip synchronization. The solution will contribute to many essential tasks concerning less reliance on massive pre training generation of emotionally expressive speech and lip synchronization in noisy and unconstrained scenarios. The modular structure of the pipeline allows an easy extension for future multi modal and text guided voice modulation and it could be used in real world systems.
- Abstract(参考訳): 近年の音声クローニングと音声ヘッド生成は、自然な音声合成とリアルな唇同期の優れた機能を示している。
現在の手法では、大規模なデータセットや計算集約的なプロセスに対して、ノイズや低リソース環境では実現不可能なクリーンなスタジオ記録インプットを必要としています。
本稿では,Tortoiseテキストを音声に変換するモジュールパイプラインを提案する。
少数のトレーニングサンプルしか持たないため,高忠実度ゼロショット音声クローニングを行うことができる変圧器を用いた潜時拡散モデルである。
我々は、高能率なリアルタイムリップ同期を実現するために、軽量な生成逆ネットワークアーキテクチャを使用する。
このソリューションは、騒々しいシナリオや制約のないシナリオにおいて、感情的に表現的なスピーチと唇の同期の大規模な事前訓練生成への依存度を低くする、多くの重要なタスクに寄与する。
パイプラインのモジュラ構造は、将来のマルチモーダルおよびテキスト誘導音声変調の容易な拡張を可能にし、実際のシステムで使用することができる。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis [7.865191493201841]
言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。
本稿では,リピートやスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。
我々のアーキテクチャは、長いサンプルで効率的に訓練し、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。
論文 参考訳(メタデータ) (2024-06-06T19:48:17Z) - FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。