論文の概要: Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis
- arxiv url: http://arxiv.org/abs/2511.05432v1
- Date: Fri, 07 Nov 2025 17:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.845854
- Title: Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis
- Title(参考訳): 共同音声合成のための共有潜在表現法
- Authors: Dogucan Yaman, Seymanur Akti, Fevziye Irem Eyiokur, Alexander Waibel,
- Abstract要約: Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。
実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 57.5830191022097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a text-to-talking-face synthesis framework leveraging latent speech representations from HierSpeech++. A Text-to-Vec module generates Wav2Vec2 embeddings from text, which jointly condition speech and face generation. To handle distribution shifts between clean and TTS-predicted features, we adopt a two-stage training: pretraining on Wav2Vec2 embeddings and finetuning on TTS outputs. This enables tight audio-visual alignment, preserves speaker identity, and produces natural, expressive speech and synchronized facial motion without ground-truth audio at inference. Experiments show that conditioning on TTS-predicted latent features outperforms cascaded pipelines, improving both lip-sync and visual realism.
- Abstract(参考訳): 本稿では,HierSpeech++の潜在音声表現を利用した音声合成フレームワークを提案する。
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
クリーンなTTS予測機能間の分散シフトに対処するため、Wav2Vec2埋め込みの事前トレーニングとTS出力の微調整という、2段階のトレーニングを採用しました。
これにより、音声と視覚の密接なアライメントが可能となり、話者のアイデンティティを保ち、自然で表現力のある音声と、推論時に地味な音声を使わずに顔の動きを同期させる。
実験により、TS予測の潜伏特性の条件付けはカスケードパイプラインよりも優れ、リップシンクとビジュアルリアリズムの両方が改善されていることが示された。
関連論文リスト
- SpeechOp: Inference-Time Task Composition for Generative Speech Processing [41.5053493629172]
SpeechOpは、幅広い音声タスクを実行できるユニバーサル音声処理装置である。
Inlicit Task Composingは、私たちの原則である推論時タスクコンポジションを通じて、SpeechOpの強化を支援する。
論文 参考訳(メタデータ) (2025-09-17T05:05:55Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。
我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。
実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。