Fugu-MT 論文翻訳(概要): X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention

論文の概要: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention

arxiv url: http://arxiv.org/abs/2507.23143v1
Date: Wed, 30 Jul 2025 22:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:08.831
Title: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention
Title（参考訳）: X-NeMo:遠方性潜在注意による表現型神経運動再生
Authors: Xiaochen Zhao, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xiu Li, Linjie Luo, Jinli Suo, Yebin Liu,
Abstract要約: X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
参考スコア（独自算出の注目度）: 52.94097577075215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose X-NeMo, a novel zero-shot diffusion-based portrait animation pipeline that animates a static portrait using facial movements from a driving video of a different individual. Our work first identifies the root causes of the key issues in prior approaches, such as identity leakage and difficulty in capturing subtle and extreme expressions. To address these challenges, we introduce a fully end-to-end training framework that distills a 1D identity-agnostic latent motion descriptor from driving image, effectively controlling motion through cross-attention during image generation. Our implicit motion descriptor captures expressive facial motion in fine detail, learned end-to-end from a diverse video dataset without reliance on pretrained motion detectors. We further enhance expressiveness and disentangle motion latents from identity cues by supervising their learning with a dual GAN decoder, alongside spatial and color augmentations. By embedding the driving motion into a 1D latent vector and controlling motion via cross-attention rather than additive spatial guidance, our design eliminates the transmission of spatial-aligned structural clues from the driving condition to the diffusion backbone, substantially mitigating identity leakage. Extensive experiments demonstrate that X-NeMo surpasses state-of-the-art baselines, producing highly expressive animations with superior identity resemblance. Our code and models are available for research.
Abstract（参考訳）: X-NeMoはゼロショット拡散に基づく新しいポートレート・アニメーション・パイプラインで、異なる人物の運転映像から顔の動きを用いて静的なポートレートを識別する。我々の研究は、まず、アイデンティティの漏洩や、微妙で極端な表現を捉えることの難しさなど、従来のアプローチにおける重要な問題の根本原因を特定します。これらの課題に対処するために,運転画像から1次元の識別非依存の潜伏運動記述子を蒸留し,画像生成時のクロスアテンションによる動作を効果的に制御する,完全エンドツーエンドのトレーニングフレームワークを導入する。我々の暗黙のモーション記述子は、事前訓練されたモーション検出器に頼らずに、多様なビデオデータセットから学習した、表現力のある顔の動きを詳細にキャプチャする。さらに,2つのGANデコーダで学習を監督し,空間的および色彩的な拡張を伴い,表現性やアンタングル運動の潜伏をアイデンティティーキューから強化する。駆動動作を1次元潜伏ベクトルに埋め込み、付加的な空間誘導よりもクロスアテンションによる動作を制御することにより、駆動状態から拡散バックボーンへの空間整合構造的手がかりの伝達を排除し、アイデンティティリークを実質的に軽減する。大規模な実験により、X-NeMoは最先端のベースラインを超越し、優れたアイデンティティ類似性を持つ高度に表現力のあるアニメーションを生成することが示されている。私たちのコードとモデルは研究に利用できます。

関連論文リスト

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文参考訳（メタデータ） (2025-04-07T08:56:01Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文参考訳（メタデータ） (2024-03-23T20:30:28Z)
AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising [25.839194626743126]
AnaMoDiffは2次元モーションアナログの新しい拡散法である。私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
論文参考訳（メタデータ） (2024-02-05T22:10:54Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-06T05:04:32Z)
Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文参考訳（メタデータ） (2022-07-20T18:05:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。