論文の概要: 3DiFACE: Synthesizing and Editing Holistic 3D Facial Animation
- arxiv url: http://arxiv.org/abs/2509.26233v1
- Date: Tue, 30 Sep 2025 13:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.555333
- Title: 3DiFACE: Synthesizing and Editing Holistic 3D Facial Animation
- Title(参考訳): 3DiFACE: ホロスティックな3D顔アニメーションの合成と編集
- Authors: Balamurugan Thambiraja, Malte Prinzler, Sadegh Aliakbarian, Darren Cosker, Justus Thies,
- Abstract要約: 本稿では,3DiFACEという,音声による3次元顔画像の合成手法を提案する。
本手法は1つの音声入力に対して多彩な唇と頭部の動きを生じさせる。
我々は,発話スタイルのパーソナライズと,巧妙な制御と編集を実現するために,スキャニングスタイルの動作拡散を用いた。
- 参考スコア(独自算出の注目度): 25.71615538597267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating personalized 3D animations with precise control and realistic head motions remains challenging for current speech-driven 3D facial animation methods. Editing these animations is especially complex and time consuming, requires precise control and typically handled by highly skilled animators. Most existing works focus on controlling style or emotion of the synthesized animation and cannot edit/regenerate parts of an input animation. They also overlook the fact that multiple plausible lip and head movements can match the same audio input. To address these challenges, we present 3DiFACE, a novel method for holistic speech-driven 3D facial animation. Our approach produces diverse plausible lip and head motions for a single audio input and allows for editing via keyframing and interpolation. Specifically, we propose a fully-convolutional diffusion model that can leverage the viseme-level diversity in our training corpus. Additionally, we employ a speaking-style personalization and a novel sparsely-guided motion diffusion to enable precise control and editing. Through quantitative and qualitative evaluations, we demonstrate that our method is capable of generating and editing diverse holistic 3D facial animations given a single audio input, with control between high fidelity and diversity. Code and models are available here: https://balamuruganthambiraja.github.io/3DiFACE
- Abstract(参考訳): 正確な制御と現実的な頭部の動きを持つパーソナライズされた3Dアニメーションを作成することは、現在の音声駆動の3D顔アニメーション法では依然として困難である。
これらのアニメーションの編集は特に複雑で時間がかかり、精密な制御を必要とし、通常高度に熟練したアニメーターによって処理される。
既存の作品の多くは、合成アニメーションのスタイルや感情の制御に重点を置いており、入力アニメーションの一部の編集や再生はできない。
また、複数の唇と頭部の動きが同じ音声入力と一致するという事実も見落としている。
これらの課題に対処するために,3DiFACEを提案する。
提案手法は,1つの音声入力に対して多種多様な唇と頭部の動きを生成し,キーフレーミングと補間による編集を可能にする。
具体的には、トレーニングコーパスにおけるビセムレベルの多様性を活用することができる完全畳み込み拡散モデルを提案する。
さらに, 発話スタイルのパーソナライズと, 巧妙な制御と編集を実現するために, よりスムーズな動作拡散を取り入れた。
定量的および定性的な評価により,本手法は高忠実度と多様性の制御により,単一の音声入力を与えられた多種多様な総合的な3次元顔アニメーションを生成・編集できることが実証された。
コードとモデルはここで入手できる。
関連論文リスト
- Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。
入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:00:22Z) - MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D
Face Diffuser [12.576421368393113]
スピーチ駆動の3D顔アニメーションは、アカデミックや業界で魅力的なタスクだ。
近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。
本研究では,DiffusionTalkerを提案する。DiffusionTalkerは,3次元顔アニメーションと知識蒸留を個人化して3次元アニメーション生成を高速化する,コントラスト学習を利用する拡散型手法である。
論文 参考訳(メタデータ) (2023-11-28T07:13:20Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Learning Audio-Driven Viseme Dynamics for 3D Face Animation [17.626644507523963]
入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
論文 参考訳(メタデータ) (2023-01-15T09:55:46Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - A Robust Interactive Facial Animation Editing System [0.0]
直感的な制御パラメータの集合から顔のアニメーションを簡単に編集するための学習に基づく新しいアプローチを提案する。
我々は、制御パラメータを結合係数列にマップする分解能保存完全畳み込みニューラルネットワークを使用している。
提案システムは頑丈で,非専門ユーザからの粗大で誇張された編集を処理できる。
論文 参考訳(メタデータ) (2020-07-18T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。