論文の概要: StableAnimator: High-Quality Identity-Preserving Human Image Animation
- arxiv url: http://arxiv.org/abs/2411.17697v1
- Date: Tue, 26 Nov 2024 18:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:56.089902
- Title: StableAnimator: High-Quality Identity-Preserving Human Image Animation
- Title(参考訳): StableAnimator: 高品質なアイデンティティ保護人間画像アニメーション
- Authors: Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu,
- Abstract要約: 本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
- 参考スコア(独自算出の注目度): 64.63765800569935
- License:
- Abstract: Current diffusion models for human image animation struggle to ensure identity (ID) consistency. This paper presents StableAnimator, the first end-to-end ID-preserving video diffusion framework, which synthesizes high-quality videos without any post-processing, conditioned on a reference image and a sequence of poses. Building upon a video diffusion model, StableAnimator contains carefully designed modules for both training and inference striving for identity consistency. In particular, StableAnimator begins by computing image and face embeddings with off-the-shelf extractors, respectively and face embeddings are further refined by interacting with image embeddings using a global content-aware Face Encoder. Then, StableAnimator introduces a novel distribution-aware ID Adapter that prevents interference caused by temporal layers while preserving ID via alignment. During inference, we propose a novel Hamilton-Jacobi-Bellman (HJB) equation-based optimization to further enhance the face quality. We demonstrate that solving the HJB equation can be integrated into the diffusion denoising process, and the resulting solution constrains the denoising path and thus benefits ID preservation. Experiments on multiple benchmarks show the effectiveness of StableAnimator both qualitatively and quantitatively.
- Abstract(参考訳): 人間の画像アニメーションの現在の拡散モデルはアイデンティティ(ID)の一貫性を確保するのに苦労している。
本稿では,ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ビデオ拡散モデルに基づいて構築されたStableAnimatorには、トレーニングと推論の両方のための慎重に設計されたモジュールが含まれており、アイデンティティの整合性を目指している。
特に、StableAnimatorは、それぞれオフザシェルフ抽出器による画像と顔の埋め込みを計算し、グローバルなコンテンツ対応のFace Encoderを使って画像の埋め込みと対話することで、顔の埋め込みをさらに洗練する。
そして、StableAnimatorは、IDのアライメントを保ちながら、時間層による干渉を防止する新しい分散対応IDアダプタを導入した。
推論中,顔の質を高めるためにハミルトン・ヤコビ・ベルマン(HJB)方程式に基づく新しい最適化を提案する。
我々は, HJB方程式の解法を拡散復調法に統合できることを実証し, 結果の解法は復調経路を制約し, それによってID保存に寄与することを示した。
複数のベンチマークの実験は、定性的かつ定量的に、StableAnimatorの有効性を示している。
関連論文リスト
- Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。
われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。