論文の概要: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention
- arxiv url: http://arxiv.org/abs/2507.23143v1
- Date: Wed, 30 Jul 2025 22:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.831
- Title: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention
- Title(参考訳): X-NeMo:遠方性潜在注意による表現型神経運動再生
- Authors: Xiaochen Zhao, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xiu Li, Linjie Luo, Jinli Suo, Yebin Liu,
- Abstract要約: X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
- 参考スコア(独自算出の注目度): 52.94097577075215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose X-NeMo, a novel zero-shot diffusion-based portrait animation pipeline that animates a static portrait using facial movements from a driving video of a different individual. Our work first identifies the root causes of the key issues in prior approaches, such as identity leakage and difficulty in capturing subtle and extreme expressions. To address these challenges, we introduce a fully end-to-end training framework that distills a 1D identity-agnostic latent motion descriptor from driving image, effectively controlling motion through cross-attention during image generation. Our implicit motion descriptor captures expressive facial motion in fine detail, learned end-to-end from a diverse video dataset without reliance on pretrained motion detectors. We further enhance expressiveness and disentangle motion latents from identity cues by supervising their learning with a dual GAN decoder, alongside spatial and color augmentations. By embedding the driving motion into a 1D latent vector and controlling motion via cross-attention rather than additive spatial guidance, our design eliminates the transmission of spatial-aligned structural clues from the driving condition to the diffusion backbone, substantially mitigating identity leakage. Extensive experiments demonstrate that X-NeMo surpasses state-of-the-art baselines, producing highly expressive animations with superior identity resemblance. Our code and models are available for research.
- Abstract(参考訳): X-NeMoはゼロショット拡散に基づく新しいポートレート・アニメーション・パイプラインで、異なる人物の運転映像から顔の動きを用いて静的なポートレートを識別する。
我々の研究は、まず、アイデンティティの漏洩や、微妙で極端な表現を捉えることの難しさなど、従来のアプローチにおける重要な問題の根本原因を特定します。
これらの課題に対処するために,運転画像から1次元の識別非依存の潜伏運動記述子を蒸留し,画像生成時のクロスアテンションによる動作を効果的に制御する,完全エンドツーエンドのトレーニングフレームワークを導入する。
我々の暗黙のモーション記述子は、事前訓練されたモーション検出器に頼らずに、多様なビデオデータセットから学習した、表現力のある顔の動きを詳細にキャプチャする。
さらに,2つのGANデコーダで学習を監督し,空間的および色彩的な拡張を伴い,表現性やアンタングル運動の潜伏をアイデンティティーキューから強化する。
駆動動作を1次元潜伏ベクトルに埋め込み、付加的な空間誘導よりもクロスアテンションによる動作を制御することにより、駆動状態から拡散バックボーンへの空間整合構造的手がかりの伝達を排除し、アイデンティティリークを実質的に軽減する。
大規模な実験により、X-NeMoは最先端のベースラインを超越し、優れたアイデンティティ類似性を持つ高度に表現力のあるアニメーションを生成することが示されている。
私たちのコードとモデルは研究に利用できます。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations [31.845995837468536]
DeX-ポートレート(DeX-Portrait)は、アンタングルされたポーズと表現信号によって駆動される表現的ポートレートアニメーションを生成する新しい手法である。
まず、ポーズと表現エンコーダの両方を学習し、精密かつ分解された駆動信号を抽出する強力なモーショントレーナーを設計する。
実験の結果,本手法はアニメーション品質とアンタングル制御性の両方において,最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-12-17T15:23:57Z) - FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint [49.80464592726769]
本研究では,映像拡散方式であるFacterPortraitを紹介する。
本手法は,運転映像から顔の表情や頭部の動きを移動させることにより,像を識別する。
提案手法は, 現実主義, 表現性, 制御精度, 視点整合性において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-12T15:22:52Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents [17.536895865783507]
X-UniMotionは全身の人間の動きを統一的かつ表現的に表現できる潜在性表現である。
提案手法は、1つの画像から4つの非絡み合った潜在トークンのコンパクトな集合への多粒体運動を直接符号化する。
これらの動き潜伏剤は、非常に表現力が高く、同一性に依存しないため、高忠実で詳細な異性間移動を可能にする。
論文 参考訳(メタデータ) (2025-08-12T22:47:20Z) - FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文 参考訳(メタデータ) (2025-04-07T08:56:01Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising [25.839194626743126]
AnaMoDiffは2次元モーションアナログの新しい拡散法である。
私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
論文 参考訳(メタデータ) (2024-02-05T22:10:54Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。