論文の概要: Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation
- arxiv url: http://arxiv.org/abs/2507.19225v1
- Date: Fri, 25 Jul 2025 12:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.957148
- Title: Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation
- Title(参考訳): Face2VoiceSync:テキスト駆動型トーキング顔生成のための軽量な顔-音声整合性
- Authors: Fang Kang, Yin Cao, Haoyu Chen,
- Abstract要約: 顔画像とテキストが与えられた場合、音声による顔のアニメーションとその対応する音声を生成する。
我々は、新しいフレームワークFace2VoiceSyncを提案し、いくつかの新しいコントリビューションを行った。
実験では、Face2VoiceSyncは単一の40GBのGPU上で、視覚的およびオーディオ的両方のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 14.036076647627553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in speech-driven talking face generation achieve promising results, but their reliance on fixed-driven speech limits further applications (e.g., face-voice mismatch). Thus, we extend the task to a more challenging setting: given a face image and text to speak, generating both talking face animation and its corresponding speeches. Accordingly, we propose a novel framework, Face2VoiceSync, with several novel contributions: 1) Voice-Face Alignment, ensuring generated voices match facial appearance; 2) Diversity \& Manipulation, enabling generated voice control over paralinguistic features space; 3) Efficient Training, using a lightweight VAE to bridge visual and audio large-pretrained models, with significantly fewer trainable parameters than existing methods; 4) New Evaluation Metric, fairly assessing the diversity and identity consistency. Experiments show Face2VoiceSync achieves both visual and audio state-of-the-art performances on a single 40GB GPU.
- Abstract(参考訳): 近年の音声駆動音声生成の研究は有望な結果を得たが、固定駆動音声への依存はさらなる応用(例えば、顔声のミスマッチ)に留まっている。
このように、タスクをより困難な設定に拡張する: 顔画像とテキストを与えられた場合、会話する顔アニメーションとその対応する音声を生成する。
そこで,我々はFace2VoiceSyncという新しいフレームワークを提案し,いくつかの新しいコントリビューションを行った。
1)声面アライメント、生成した声が顔の外観にマッチすること。
2)パラ言語的特徴空間における音声制御を可能にするダイバーシティ・アンド・マニピュレーション
3 軽量のVAEを用いて、視覚的及び音声的大予測モデルを橋渡しし、既存の方法に比べて訓練可能なパラメータを著しく少なくする効率的な訓練。
4)多様性とアイデンティティの整合性を評価する新しい評価基準。
実験では、Face2VoiceSyncは単一の40GBのGPU上で、視覚的およびオーディオ的両方のパフォーマンスを達成する。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-05-25T04:43:17Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。