論文の概要: StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation
- arxiv url: http://arxiv.org/abs/2507.15064v1
- Date: Sun, 20 Jul 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.178305
- Title: StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation
- Title(参考訳): StableAnimator++: 人間の画像アニメーションにおけるポーズミスと顔の歪みを克服する
- Authors: Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 人間の画像アニメーションの現在の拡散モデルは、アイデンティティの整合性を維持するのに苦労することが多い。
学習可能なポーズアライメントを備えた最初のID保存ビデオ拡散フレームワークであるStableAnimator++を紹介する。
本稿では,StableAnimator++が参照画像とポーズシーケンスに条件付き高品質な動画を後処理なしで生成する方法を示す。
- 参考スコア(独自算出の注目度): 98.10527466949338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current diffusion models for human image animation often struggle to maintain identity (ID) consistency, especially when the reference image and driving video differ significantly in body size or position. We introduce StableAnimator++, the first ID-preserving video diffusion framework with learnable pose alignment, capable of generating high-quality videos conditioned on a reference image and a pose sequence without any post-processing. Building upon a video diffusion model, StableAnimator++ contains carefully designed modules for both training and inference, striving for identity consistency. In particular, StableAnimator++ first uses learnable layers to predict the similarity transformation matrices between the reference image and the driven poses via injecting guidance from Singular Value Decomposition (SVD). These matrices align the driven poses with the reference image, mitigating misalignment to a great extent. StableAnimator++ then computes image and face embeddings using off-the-shelf encoders, refining the face embeddings via a global content-aware Face Encoder. To further maintain ID, we introduce a distribution-aware ID Adapter that counteracts interference caused by temporal layers while preserving ID via distribution alignment. During the inference stage, we propose a novel Hamilton-Jacobi-Bellman (HJB) based face optimization integrated into the denoising process, guiding the diffusion trajectory for enhanced facial fidelity. Experiments on benchmarks show the effectiveness of StableAnimator++ both qualitatively and quantitatively.
- Abstract(参考訳): 人間の画像アニメーションの現在の拡散モデルは、特に参照画像と駆動ビデオが体の大きさや位置で著しく異なる場合、ID(ID)一貫性を維持するのに苦労することが多い。
本稿では,学習可能なポーズアライメントを備えた最初のID保存ビデオ拡散フレームワークであるStableAnimator++について紹介する。
ビデオ拡散モデルに基づいて構築されているStableAnimator++には、トレーニングと推論の両方のための慎重に設計されたモジュールが含まれており、アイデンティティの整合性を目指している。
特にStableAnimator++は、まず学習可能なレイヤを使用して、Singular Value Decomposition(SVD)からのインジェクションを通じて、参照イメージと駆動ポーズの類似度変換行列を予測する。
これらの行列は、駆動されたポーズと参照画像とを一致させ、ミスアライメントを極端に軽減する。
StableAnimator++は、オフザシェルのエンコーダを使用してイメージとフェイスの埋め込みを計算し、グローバルなコンテントを意識したFace Encoderを介して顔の埋め込みを精錬する。
さらにIDの維持を図るため,配電アライメントを通じてIDを保存しながら,時相層による干渉に対処する分散対応IDアダプタを提案する。
推論段階では,ハミルトン・ヤコビ・ベルマン (HJB) をベースとした新しい顔最適化法を提案し,顔の忠実度向上のための拡散軌跡を導出する。
ベンチマークの実験では、定性的かつ定量的に、StableAnimator++の有効性が示されている。
関連論文リスト
- DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に切り離すことを目的としている。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。