論文の概要: 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars
- arxiv url: http://arxiv.org/abs/2602.10516v1
- Date: Wed, 11 Feb 2026 04:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.467073
- Title: 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars
- Title(参考訳): 3DXTalker:表現型3Dトーキングアバターにおけるアイデンティティ、リップシンク、感情、空間ダイナミクスの統一
- Authors: Zhongju Wang, Zhenhong Sun, Beier Wang, Yifu Wang, Daoyi Dong, Huadong Mo, Hongdong Li,
- Abstract要約: 3DXTalkerは、データキュレーションされたアイデンティティモデリング、オーディオリッチ表現、空間力学制御性を通じて、表現力のある3Dトーキングアバターである。
我々は,標準音声埋め込みを超えて,フレームワイド振幅と感情的手がかりを導入し,優れた唇同期とニュアンスド表現の変調を実現した。
- 参考スコア(独自算出の注目度): 46.32463788372058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven 3D talking avatar generation is increasingly important in virtual communication, digital humans, and interactive media, where avatars must preserve identity, synchronize lip motion with speech, express emotion, and exhibit lifelike spatial dynamics, collectively defining a broader objective of expressivity. However, achieving this remains challenging due to insufficient training data with limited subject identities, narrow audio representations, and restricted explicit controllability. In this paper, we propose 3DXTalker, an expressive 3D talking avatar through data-curated identity modeling, audio-rich representations, and spatial dynamics controllability. 3DXTalker enables scalable identity modeling via 2D-to-3D data curation pipeline and disentangled representations, alleviating data scarcity and improving identity generalization. Then, we introduce frame-wise amplitude and emotional cues beyond standard speech embeddings, ensuring superior lip synchronization and nuanced expression modulation. These cues are unified by a flow-matching-based transformer for coherent facial dynamics. Moreover, 3DXTalker also enables natural head-pose motion generation while supporting stylized control via prompt-based conditioning. Extensive experiments show that 3DXTalker integrates lip synchronization, emotional expression, and head-pose dynamics within a unified framework, achieves superior performance in 3D talking avatar generation.
- Abstract(参考訳): 仮想コミュニケーション、デジタル人間、インタラクティブメディアでは、アバターはアイデンティティを保持し、唇の動きを音声と同期させ、感情を表現し、生活に似た空間的ダイナミクスを示し、表現性のより広い目的を集合的に定義する必要がある。
しかし、限られた主題の同一性、狭い音声表現、制限された明示的な制御性を持つ訓練データが不足しているため、この達成は依然として困難である。
本稿では,3DXTalkerを提案する。この3DXTalkerは,データキュレーションされたアイデンティティモデリング,オーディオリッチ表現,空間的ダイナミックス制御性などを通じて,アバターを表現できる3DXTalkerである。
3DXTalkerは、2D-to-3Dデータキュレーションパイプラインとアンタングル表現によるスケーラブルなIDモデリングを可能にし、データの不足を軽減し、アイデンティティの一般化を改善する。
そこで我々は,標準音声埋め込みを超えて,フレームワイド振幅と感情的手がかりを導入し,優れた唇同期とニュアンス表現変調を実現する。
これらのキューは、コヒーレントな顔力学のためのフローマッチングベースの変換器によって統一される。
さらに、3DXTalkerは、プロンプトベースの条件付けによるスタイリング制御をサポートしながら、自然な頭部動作生成を可能にする。
拡張実験により,3DXTalkerは唇の同期,感情表現,頭部動態を統合されたフレームワークに統合し,アバター生成において優れた性能を発揮することが示された。
関連論文リスト
- PTalker: Personalized Speech-Driven 3D Talking Head Animation via Style Disentanglement and Modality Alignment [19.347893658924367]
PTalkerは、パーソナライズされた3Dトーキングヘッドアニメーションのための新しいフレームワークである。
音声と顔の動きシーケンスからのスタイルの切り離しを通じて、話し方を保存する。
オーディオとメッシュの3レベルアライメント機構によって、リップ同期の精度を向上させる。
論文 参考訳(メタデータ) (2025-12-27T14:14:14Z) - Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics [40.86039227407712]
本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
論文 参考訳(メタデータ) (2025-12-17T11:37:35Z) - Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation [20.91704034858042]
音声と感情の両方によって駆動される顔のアニメーションを線形加法問題としてモデル化する。
我々は、FLAMEモデルの表情と顎ポーズパラメータにマッピングできる、スピーチと感情によって駆動されるブレンドサップのセットを学習する。
提案手法は,リップシンク品質を損なうことなく,既存の方法に比べて感情表現性が優れている。
論文 参考訳(メタデータ) (2025-10-29T07:29:21Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。