論文の概要: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention
- arxiv url: http://arxiv.org/abs/2507.23143v1
- Date: Wed, 30 Jul 2025 22:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.831
- Title: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention
- Title(参考訳): X-NeMo:遠方性潜在注意による表現型神経運動再生
- Authors: Xiaochen Zhao, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xiu Li, Linjie Luo, Jinli Suo, Yebin Liu,
- Abstract要約: X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
- 参考スコア(独自算出の注目度): 52.94097577075215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose X-NeMo, a novel zero-shot diffusion-based portrait animation pipeline that animates a static portrait using facial movements from a driving video of a different individual. Our work first identifies the root causes of the key issues in prior approaches, such as identity leakage and difficulty in capturing subtle and extreme expressions. To address these challenges, we introduce a fully end-to-end training framework that distills a 1D identity-agnostic latent motion descriptor from driving image, effectively controlling motion through cross-attention during image generation. Our implicit motion descriptor captures expressive facial motion in fine detail, learned end-to-end from a diverse video dataset without reliance on pretrained motion detectors. We further enhance expressiveness and disentangle motion latents from identity cues by supervising their learning with a dual GAN decoder, alongside spatial and color augmentations. By embedding the driving motion into a 1D latent vector and controlling motion via cross-attention rather than additive spatial guidance, our design eliminates the transmission of spatial-aligned structural clues from the driving condition to the diffusion backbone, substantially mitigating identity leakage. Extensive experiments demonstrate that X-NeMo surpasses state-of-the-art baselines, producing highly expressive animations with superior identity resemblance. Our code and models are available for research.
- Abstract(参考訳): X-NeMoはゼロショット拡散に基づく新しいポートレート・アニメーション・パイプラインで、異なる人物の運転映像から顔の動きを用いて静的なポートレートを識別する。
我々の研究は、まず、アイデンティティの漏洩や、微妙で極端な表現を捉えることの難しさなど、従来のアプローチにおける重要な問題の根本原因を特定します。
これらの課題に対処するために,運転画像から1次元の識別非依存の潜伏運動記述子を蒸留し,画像生成時のクロスアテンションによる動作を効果的に制御する,完全エンドツーエンドのトレーニングフレームワークを導入する。
我々の暗黙のモーション記述子は、事前訓練されたモーション検出器に頼らずに、多様なビデオデータセットから学習した、表現力のある顔の動きを詳細にキャプチャする。
さらに,2つのGANデコーダで学習を監督し,空間的および色彩的な拡張を伴い,表現性やアンタングル運動の潜伏をアイデンティティーキューから強化する。
駆動動作を1次元潜伏ベクトルに埋め込み、付加的な空間誘導よりもクロスアテンションによる動作を制御することにより、駆動状態から拡散バックボーンへの空間整合構造的手がかりの伝達を排除し、アイデンティティリークを実質的に軽減する。
大規模な実験により、X-NeMoは最先端のベースラインを超越し、優れたアイデンティティ類似性を持つ高度に表現力のあるアニメーションを生成することが示されている。
私たちのコードとモデルは研究に利用できます。
関連論文リスト
- X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。