Fugu-MT 論文翻訳(概要): GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer

論文の概要: GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer

arxiv url: http://arxiv.org/abs/2408.01826v1
Date: Sat, 3 Aug 2024 17:18:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 18:21:07.259616
Title: GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer
Title（参考訳）: GLDiTalker:グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーション
Authors: Yihong Lin, Lingyu Xiong, Xiandong Li, Wenxiong Kang, Xianjia Wu, Liang Peng, Songju Lei, Huang Xu, Zhaoxin Fan,
Abstract要約: 3D音声による顔アニメーション生成は、産業応用と学術研究の両方で注目されている。本稿では,モーダル間マッピングの不確実性を低減するために,前もって動きを導入するGLDiTalkerを提案する。空間情報の異なるレベルを統合するために、空間ピラミッドスピラルコンブは、マルチスケールの特徴を抽出するように設計されている。
参考スコア（独自算出の注目度）: 26.56764961396697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D speech-driven facial animation generation has received much attention in both industrial applications and academic research. Since the non-verbal facial cues that exist across the face in reality are non-deterministic, the generated results should be diverse. However, most recent methods are deterministic models that cannot learn a many-to-many mapping between audio and facial motion to generate diverse facial animations. To address this problem, we propose GLDiTalker, which introduces a motion prior along with some stochasticity to reduce the uncertainty of cross-modal mapping while increasing non-determinacy of the non-verbal facial cues that reside throughout the face. Particularly, GLDiTalker uses VQ-VAE to map facial motion mesh sequences into latent space in the first stage, and then iteratively adds and removes noise to the latent facial motion features in the second stage. In order to integrate different levels of spatial information, the Spatial Pyramidal SpiralConv Encoder is also designed to extract multi-scale features. Extensive qualitative and quantitative experiments demonstrate that our method achieves the state-of-the-art performance.
Abstract（参考訳）: 3D音声による顔アニメーション生成は、産業応用と学術研究の両方で注目されている。顔全体に存在する非言語的な顔の手がかりは非決定論的であるため、生成された結果は多様である。しかし、近年の手法は、多様な顔アニメーションを生成するために、音声と顔の動きの多対多マッピングを学習できない決定論的モデルである。この問題に対処するため,顔全体に存在する非言語的顔手がかりの非決定性を高めつつ,モーダルマッピングの不確実性を低減するために,いくつかの確率性とともに動きを導入するGLDiTalkerを提案する。特にGLDiTalkerは、VQ-VAEを使用して、第1段階で顔の動きメッシュシーケンスを潜伏空間にマッピングし、第2段階において潜伏した顔の動き特徴にノイズを反復的に加算し除去する。空間情報の異なるレベルを統合するために、空間ピラミッドスパイラルコンブエンコーダもマルチスケールの特徴を抽出するために設計されている。定性的かつ定量的な実験により,本手法が最先端の性能を実現することを示す。

関連論文リスト

M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation [16.202732894319084]
MoDiT は 3D Morphable Model (3DMM) と Diffusion-based Transformer を組み合わせた新しいフレームワークである。 i) 時間的注意と偏りのある自己/横断的意識のメカニズムを改良した階層的認知戦略により, モデルによる唇同期の洗練が可能となった。 2) 空間的制約を明確化し, 正確な3次元インフォームド光流予測を実現するための3次元MM係数の統合。
論文参考訳（メタデータ） (2025-07-07T15:13:46Z)
Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers [58.86974149731874]
Cosh-DiTは、ハイブリッド拡散変換器を備えた音声合成方式である。我々は音声拡散変換器を導入し、音声リズムに同期した表現的ジェスチャーダイナミクスを合成する。生成した音声駆動動作に条件付きリアルな映像合成を行うために,視覚拡散変換器を設計する。
論文参考訳（メタデータ） (2025-03-13T01:36:05Z)
GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。 2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文参考訳（メタデータ） (2024-12-12T14:12:07Z)
KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文参考訳（メタデータ） (2024-09-02T09:41:24Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文参考訳（メタデータ） (2024-08-06T17:29:01Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。 DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文参考訳（メタデータ） (2024-02-08T14:39:16Z)
DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。 DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文参考訳（メタデータ） (2024-01-09T11:38:18Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文参考訳（メタデータ） (2023-12-07T04:39:22Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文参考訳（メタデータ） (2022-05-02T13:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。