論文の概要: GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2408.01826v2
- Date: Fri, 16 Aug 2024 14:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:49:17.930597
- Title: GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer
- Title(参考訳): GLDiTalker:グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーション
- Authors: Yihong Lin, Zhaoxin Fan, Lingyu Xiong, Liang Peng, Xiandong Li, Wenxiong Kang, Xianjia Wu, Songju Lei, Huang Xu,
- Abstract要約: 本稿では,Graph Latent Diffusion Transformerを用いた音声駆動型3次元顔アニメーションモデルGLDiTalkerを紹介する。
GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
- 参考スコア(独自算出の注目度): 26.567649613966974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven talking head generation is an important but challenging task for many downstream applications such as augmented reality. Existing methods have achieved remarkable performance by utilizing autoregressive models or diffusion models. However, most still suffer from modality inconsistencies, specifically the misalignment between audio and mesh modalities, which causes inconsistencies in motion diversity and lip-sync accuracy. To address this issue, this paper introduces GLDiTalker, a novel speech-driven 3D facial animation model that employs a Graph Latent Diffusion Transformer. The core idea behind GLDiTalker is that the audio-mesh modality misalignment can be resolved by diffusing the signal in a latent quantilized spatial-temporal space. To achieve this, GLDiTalker builds upon a quantilized space-time diffusion training pipeline, which consists of a Graph Enhanced Quantilized Space Learning Stage and a Space-Time Powered Latent Diffusion Stage. The first stage ensures lip-sync accuracy, while the second stage enhances motion diversity. Together, these stages enable GLDiTalker to generate temporally and spatially stable, realistic models. Extensive evaluations on several widely used benchmarks demonstrate that our method achieves superior performance compared to existing methods.
- Abstract(参考訳): 音声駆動音声ヘッド生成は、拡張現実のような多くの下流アプリケーションにとって重要な課題だが難しい課題である。
既存の手法は自己回帰モデルや拡散モデルを利用することで顕著な性能を実現している。
しかし、ほとんどの場合、モダリティの不整合、特に動きの多様性とリップシンク精度の矛盾を引き起こすオーディオとメッシュのモダリティの不整合に悩まされている。
本稿では,グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーションモデルであるGLDiTalkerを紹介する。
GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
これを実現するため、GLDiTalkerは、グラフ拡張量子化宇宙学習ステージと空間時間パワー潜在拡散ステージで構成される量子化時空間拡散訓練パイプラインを構築している。
第1段階はリップシンク精度を確保し、第2段階は動きの多様性を高める。
これらの段階を合わせて、GLDiTalkerは時間的に、空間的に安定し、現実的なモデルを生成することができる。
提案手法が既存手法と比較して優れた性能を発揮することを示す。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion
Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。
最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。
DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文 参考訳(メタデータ) (2024-02-08T14:39:16Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。