論文の概要: 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy
- arxiv url: http://arxiv.org/abs/2409.10848v1
- Date: Tue, 17 Sep 2024 02:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-18 18:06:56.157161
- Title: 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy
- Title(参考訳): 3DFacePolicy:拡散ポリシによる音声駆動型3D顔アニメーション
- Authors: Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Yuki Uranishi,
- Abstract要約: 本稿では,3次元表情予測のための拡散ポリシーモデルである3DFacePolicyを提案する。
方法は、変動的で現実的な人間の顔の動きを生成する。
実験により,本手法は顔面運動の変動や動的動作に有効であることが確認された。
- 参考スコア(独自算出の注目度): 1.3499500088995464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven 3D facial animation has made immersive progress both in research and application developments. The newest approaches focus on Transformer-based methods and diffusion-based methods, however, there is still gap in the vividness and emotional expression between the generated animation and real human face. To tackle this limitation, we propose 3DFacePolicy, a diffusion policy model for 3D facial animation prediction. This method generates variable and realistic human facial movements by predicting the 3D vertex trajectory on the 3D facial template with diffusion policy instead of facial generation for every frame. It takes audio and vertex states as observations to predict the vertex trajectory and imitate real human facial expressions, which keeps the continuous and natural flow of human emotions. The experiments show that our approach is effective in variable and dynamic facial motion synthesizing.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、研究とアプリケーション開発の両方で没入的な進歩を遂げている。
最新のアプローチはトランスフォーマーに基づく手法と拡散に基づく手法に重点を置いているが、生成したアニメーションと実際の人間の顔の間には、生き生きと感情表現のギャップがまだ残っている。
この制限に対処するため、3DFacePolicyという3次元顔アニメーション予測のための拡散ポリシーモデルを提案する。
フレーム毎に顔生成ではなく拡散ポリシーで3次元顔テンプレート上の3次元頂点軌跡を予測し、変動的で現実的な人間の顔の動きを生成する。
音声と頂点の状態を観察し、頂点の軌道を予測し、人間の表情を模倣し、人間の感情の連続的および自然な流れを維持する。
実験の結果,本手法は顔面運動の変動および動的合成に有効であることがわかった。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - OT-Talk: Animating 3D Talking Head with Optimal Transportation [20.023346831300373]
OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。
既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。
2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-03T21:49:23Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。
グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。
これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文 参考訳(メタデータ) (2024-03-25T21:40:44Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - DiffusionTalker: Personalization and Acceleration for Speech-Driven 3D
Face Diffuser [12.576421368393113]
スピーチ駆動の3D顔アニメーションは、アカデミックや業界で魅力的なタスクだ。
近年のアプローチでは、音声駆動型3次元顔アニメーションの非決定論的事実を考察し、その課題に拡散モデルを適用している。
本研究では,DiffusionTalkerを提案する。DiffusionTalkerは,3次元顔アニメーションと知識蒸留を個人化して3次元アニメーション生成を高速化する,コントラスト学習を利用する拡散型手法である。
論文 参考訳(メタデータ) (2023-11-28T07:13:20Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Controllable Radiance Fields for Dynamic Face Synthesis [125.48602100893845]
非剛性運動を示す顔力学の生成モデル合成を明示的に制御する方法について検討する。
制御可能な放射場(CoRF)
頭部画像・映像データから,CoRFは3次元認識可能であり,識別,視聴方向,動きの編集が可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:17:31Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。