論文の概要: FreeTalk: Emotional Topology-Free 3D Talking Heads
- arxiv url: http://arxiv.org/abs/2603.15512v1
- Date: Mon, 16 Mar 2026 16:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.604436
- Title: FreeTalk: Emotional Topology-Free 3D Talking Heads
- Title(参考訳): FreeTalk: 感情的トポロジーなしの3Dトーキングヘッド
- Authors: Federico Nocentini, Thomas Besnier, Claudio Ferrari, Stefano Berretti, Mohamed Daoudi,
- Abstract要約: FreeTalkは感情調和型3Dトーキングヘッドアニメーションのための2段階フレームワークである。
ATSは音声から3次元ランドマーク変位の時間的コヒーレントなシーケンスを予測する。
Sparse-To-Meshは、本質的な表面特徴とランドマークと頂点条件を組み合わせることで、予測されたランドマークの動きをターゲットメッシュに転送する。
- 参考スコア(独自算出の注目度): 17.706608409435695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation has advanced rapidly, yet most approaches remain tied to registered template meshes, preventing effective deployment on raw 3D scans with arbitrary topology. At the same time, modeling controllable emotional dynamics beyond lip articulation remains challenging, and is often tied to template-based parameterizations. We address these challenges by proposing FreeTalk, a two-stage framework for emotion-conditioned 3D talking-head animation that generalizes to unregistered face meshes with arbitrary vertex count and connectivity. First, Audio-To-Sparse (ATS) predicts a temporally coherent sequence of 3D landmark displacements from speech audio, conditioned on an emotion category and intensity. This sparse representation captures both articulatory and affective motion while remaining independent of mesh topology. Second, Sparse-To-Mesh (STM) transfers the predicted landmark motion to a target mesh by combining intrinsic surface features with landmark-to-vertex conditioning, producing dense per-vertex deformations without template fitting or correspondence supervision at test time. Extensive experiments show that FreeTalk matches specialized baselines when trained in-domain, while providing substantially improved robustness to unseen identities and mesh topologies. Code and pre-trained models will be made publicly available.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは急速に進歩しているが、ほとんどのアプローチは登録されたテンプレートメッシュに関連付けられており、任意のトポロジを持つ生の3Dスキャンへの効果的な展開を妨げている。
同時に、唇音節以外の制御可能な感情力学をモデル化することは困難であり、しばしばテンプレートベースのパラメータ化に結びついている。
これらの課題に対処するために、感情条件付き3Dトーキングヘッドアニメーションのための2段階フレームワークであるFreeTalkを提案し、任意の頂点数と接続性を持つ未登録のフェイスメッシュに一般化する。
まず,音声からの3次元ランドマーク変位の時間的コヒーレントなシーケンスを,感情カテゴリーと強度に基づいて予測する。
このスパース表現は、メッシュトポロジーとは独立なまま、調音運動と感情運動の両方をキャプチャする。
第二に、Sparse-To-Mesh (STM) は、本質的な表面特徴とランドマークから頂点への条件付けを組み合わせることで、予測されたランドマーク運動をターゲットメッシュに転送し、テスト時にテンプレートフィッティングや対応監督なしに、高密度の頂点毎の変形を発生させる。
大規模な実験では、FreeTalkはトレーニングされたドメイン内の特定のベースラインと一致し、未確認のIDとメッシュトポロジに対するロバスト性を大幅に改善した。
コードと事前訓練されたモデルは一般公開される予定だ。
関連論文リスト
- Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics [40.86039227407712]
本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
論文 参考訳(メタデータ) (2025-12-17T11:37:35Z) - Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation [20.91704034858042]
音声と感情の両方によって駆動される顔のアニメーションを線形加法問題としてモデル化する。
我々は、FLAMEモデルの表情と顎ポーズパラメータにマッピングできる、スピーチと感情によって駆動されるブレンドサップのセットを学習する。
提案手法は,リップシンク品質を損なうことなく,既存の方法に比べて感情表現性が優れている。
論文 参考訳(メタデータ) (2025-10-29T07:29:21Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - OT-Talk: Animating 3D Talking Head with Optimal Transportation [20.023346831300373]
OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。
既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。
2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-03T21:49:23Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head [30.138347111341748]
本稿では,3次元音声頭部を制御可能な感情で合成する新しい手法を提案する。
本モデルでは,生成した音声の感情を制御可能とし,広視野で表現することができる。
実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-08-01T05:46:57Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。