Fugu-MT 論文翻訳(概要): 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy

論文の概要: 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy

arxiv url: http://arxiv.org/abs/2409.10848v1
Date: Tue, 17 Sep 2024 02:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 18:06:56.157161
Title: 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy
Title（参考訳）: 3DFacePolicy:拡散ポリシによる音声駆動型3D顔アニメーション
Authors: Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Yuki Uranishi,
Abstract要約: 本稿では,3次元表情予測のための拡散ポリシーモデルである3DFacePolicyを提案する。方法は、変動的で現実的な人間の顔の動きを生成する。実験により,本手法は顔面運動の変動や動的動作に有効であることが確認された。
参考スコア（独自算出の注目度）: 1.3499500088995464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-driven 3D facial animation has made immersive progress both in research and application developments. The newest approaches focus on Transformer-based methods and diffusion-based methods, however, there is still gap in the vividness and emotional expression between the generated animation and real human face. To tackle this limitation, we propose 3DFacePolicy, a diffusion policy model for 3D facial animation prediction. This method generates variable and realistic human facial movements by predicting the 3D vertex trajectory on the 3D facial template with diffusion policy instead of facial generation for every frame. It takes audio and vertex states as observations to predict the vertex trajectory and imitate real human facial expressions, which keeps the continuous and natural flow of human emotions. The experiments show that our approach is effective in variable and dynamic facial motion synthesizing.
Abstract（参考訳）: 音声駆動の3D顔アニメーションは、研究とアプリケーション開発の両方で没入的な進歩を遂げている。最新のアプローチはトランスフォーマーに基づく手法と拡散に基づく手法に重点を置いているが、生成したアニメーションと実際の人間の顔の間には、生き生きと感情表現のギャップがまだ残っている。この制限に対処するため、3DFacePolicyという3次元顔アニメーション予測のための拡散ポリシーモデルを提案する。フレーム毎に顔生成ではなく拡散ポリシーで3次元顔テンプレート上の3次元頂点軌跡を予測し、変動的で現実的な人間の顔の動きを生成する。音声と頂点の状態を観察し、頂点の軌道を予測し、人間の表情を模倣し、人間の感情の連続的および自然な流れを維持する。実験の結果,本手法は顔面運動の変動および動的合成に有効であることがわかった。

関連論文リスト

EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文参考訳（メタデータ） (2024-03-25T21:40:44Z)
3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文参考訳（メタデータ） (2023-12-01T19:01:05Z)
DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D Face Diffuser [12.576421368393113]
スピーチ駆動の3D顔アニメーションは、アカデミックや業界で魅力的なタスクだ。近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。本研究では,DiffusionTalkerを提案する。DiffusionTalkerは,3次元顔アニメーションと知識蒸留を個人化して3次元アニメーション生成を高速化する,コントラスト学習を利用する拡散型手法である。
論文参考訳（メタデータ） (2023-11-28T07:13:20Z)
FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文参考訳（メタデータ） (2023-09-20T13:33:00Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。 DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-04-18T12:36:15Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文参考訳（メタデータ） (2021-04-16T17:05:40Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。