論文の概要: Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control
- arxiv url: http://arxiv.org/abs/2503.14517v1
- Date: Fri, 14 Mar 2025 02:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:38.959296
- Title: Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control
- Title(参考訳): Cafe-Talk:マルチモーダル粗さときめ細かい制御による3次元顔アニメーション生成
- Authors: Hejia Chen, Haoxian Zhang, Shoulong Zhang, Xiaoqiang Liu, Sisi Zhuang, Yuan Zhang, Pengfei Wan, Di Zhang, Shuai Li,
- Abstract要約: 3Dトーキングフェイス法は, 正確な唇同期と制御可能な表情を提供する必要がある。
粗い時間的・きめ細かい制御条件を同時に組み込んだ拡散変換器を用いた3次元音声合成モデルCafe-Talkを提案する。
実験により, Cafe-Talkは最先端の唇同期と表現性を達成し, ユーザスタディにおけるきめ細かい制御において広く受け入れられていることが証明された。
- 参考スコア(独自算出の注目度): 19.384766996505927
- License:
- Abstract: Speech-driven 3D talking face method should offer both accurate lip synchronization and controllable expressions. Previous methods solely adopt discrete emotion labels to globally control expressions throughout sequences while limiting flexible fine-grained facial control within the spatiotemporal domain. We propose a diffusion-transformer-based 3D talking face generation model, Cafe-Talk, which simultaneously incorporates coarse- and fine-grained multimodal control conditions. Nevertheless, the entanglement of multiple conditions challenges achieving satisfying performance. To disentangle speech audio and fine-grained conditions, we employ a two-stage training pipeline. Specifically, Cafe-Talk is initially trained using only speech audio and coarse-grained conditions. Then, a proposed fine-grained control adapter gradually adds fine-grained instructions represented by action units (AUs), preventing unfavorable speech-lip synchronization. To disentangle coarse- and fine-grained conditions, we design a swap-label training mechanism, which enables the dominance of the fine-grained conditions. We also devise a mask-based CFG technique to regulate the occurrence and intensity of fine-grained control. In addition, a text-based detector is introduced with text-AU alignment to enable natural language user input and further support multimodal control. Extensive experimental results prove that Cafe-Talk achieves state-of-the-art lip synchronization and expressiveness performance and receives wide acceptance in fine-grained control in user studies. Project page: https://harryxd2018.github.io/cafe-talk/
- Abstract(参考訳): 音声駆動型3次元音声合成法は, 正確な唇同期と制御可能な表現を提供する必要がある。
従来の方法では、個別の感情ラベルのみを採用して、時空間領域内のフレキシブルなきめ細かい顔制御を制限しながら、シーケンス全体を通して表現をグローバルに制御する。
本稿では,拡散変換器を用いた3次元音声合成モデルCafe-Talkを提案する。
にもかかわらず、複数の条件の絡み合いは、性能を満足させるのに困難である。
音声と微粒な条件を混同するために,2段階の訓練パイプラインを用いる。
特に、Cafe-Talkは当初、音声と粗い粒度の条件のみを使用して訓練されている。
そして、提案した微粒化制御アダプタは、アクションユニット(AUs)で表される微粒化命令を徐々に追加し、好ましくない音声-リップ同期を防止する。
粗くきめ細かな条件を解消するために, きめ細かな条件の優位性を実現するスワップラベルトレーニング機構を設計する。
また、きめ細かい制御の発生と強度を制御するためのマスクベースのCFG技術も考案した。
さらに、テキストベースの検出器にテキスト-AUアライメントを導入し、自然言語のユーザ入力を可能にし、さらにマルチモーダル制御をサポートする。
実験結果から, Cafe-Talk は最先端の唇同期と表現性性能を達成し, ユーザ研究におけるきめ細かい制御において広く受け入れられていることが判明した。
プロジェクトページ:https://harryxd2018.github.io/cafe-talk/
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion [6.677873152109559]
Playmateは、より生き生きとした表情と話す顔を生成するために提案されている。
最初の段階では、より正確な属性の絡み合いを容易にするために、分離された暗黙の3D表現を導入する。
第2段階では、感情制御情報を潜在空間にエンコードする感情制御モジュールを導入する。
論文 参考訳(メタデータ) (2025-02-11T02:53:48Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis [5.832760192773463]
本稿では, 対話音声生成のための効率的な分散化フレームワーク(EDTalk)を提案する。
本フレームワークは,映像や音声の入力に対して,口形状,頭部ポーズ,感情表現を個別に操作することを可能にする。
EDTalkの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T05:32:39Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。