論文の概要: VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation
- arxiv url: http://arxiv.org/abs/2405.18156v1
- Date: Tue, 28 May 2024 13:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:29:23.891440
- Title: VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation
- Title(参考訳): VividPose:リアルな人間のイメージアニメーションのための安定的なビデオ拡散の促進
- Authors: Qilin Wang, Zhengkai Jiang, Chengming Xu, Jiangning Zhang, Yabiao Wang, Xinyi Zhang, Yun Cao, Weijian Cao, Chengjie Wang, Yanwei Fu,
- Abstract要約: 時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
- 参考スコア(独自算出の注目度): 79.99551055245071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human image animation involves generating a video from a static image by following a specified pose sequence. Current approaches typically adopt a multi-stage pipeline that separately learns appearance and motion, which often leads to appearance degradation and temporal inconsistencies. To address these issues, we propose VividPose, an innovative end-to-end pipeline based on Stable Video Diffusion (SVD) that ensures superior temporal stability. To enhance the retention of human identity, we propose an identity-aware appearance controller that integrates additional facial information without compromising other appearance details such as clothing texture and background. This approach ensures that the generated videos maintain high fidelity to the identity of human subject, preserving key facial features across various poses. To accommodate diverse human body shapes and hand movements, we introduce a geometry-aware pose controller that utilizes both dense rendering maps from SMPL-X and sparse skeleton maps. This enables accurate alignment of pose and shape in the generated videos, providing a robust framework capable of handling a wide range of body shapes and dynamic hand movements. Extensive qualitative and quantitative experiments on the UBCFashion and TikTok benchmarks demonstrate that our method achieves state-of-the-art performance. Furthermore, VividPose exhibits superior generalization capabilities on our proposed in-the-wild dataset. Codes and models will be available.
- Abstract(参考訳): 人間の画像アニメーションは、特定のポーズシーケンスに従うことによって、静的画像からビデオを生成する。
現在のアプローチでは一般的に、外観と動きを別々に学習するマルチステージパイプラインを採用しています。
これらの問題に対処するため、我々は、安定した時間安定性を確保するためのSVD(Stable Video Diffusion)に基づく革新的なエンドツーエンドパイプラインであるVividPoseを提案する。
人間のアイデンティティの保持を高めるために,衣服のテクスチャや背景など他の外観の詳細を損なうことなく,追加の顔情報を統合するアイデンティティ認識型外観制御器を提案する。
このアプローチにより、生成されたビデオは、さまざまなポーズにまたがる重要な顔の特徴を保ちながら、人間の被写体のアイデンティティに対して高い忠実性を維持することができる。
多様な人体形状や手の動きに対応するために,SMPL-Xからの濃密なレンダリングマップとスパース骨格地図の両方を利用する幾何学的ポーズコントローラを導入する。
これにより、生成されたビデオのポーズと形状の正確なアライメントが可能になり、幅広い身体形状とダイナミックハンドの動きを扱える堅牢なフレームワークを提供する。
UBCFashion と TikTok ベンチマークの大規模定性的および定量的実験により,本手法が最先端性能を実現することを示す。
さらに、VividPoseは、提案した組込みデータセットよりも優れた一般化能力を示す。
コードとモデルは利用可能だ。
関連論文リスト
- MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning [30.61146302275139]
動作レベルと同一性レベルの両方でCLIP特徴を変調する動き入出力学習モジュール(MIA)を導入する。
また、クリップ間の時間関係をモデル化するICA(Inter-Clip Affinity Learning Module)を設計する。
提案手法は, 表情と視線を正確に制御し, 忠実なアイデンティティを保存し, クリック内時間的整合性を維持するアニメーション映像を生成する。
論文 参考訳(メタデータ) (2024-09-23T16:33:53Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。
われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - AniDress: Animatable Loose-Dressed Avatar from Sparse Views Using
Garment Rigging Model [58.035758145894846]
AniDressは、非常にスパースなマルチビュービデオを用いて、ゆるい服装でアニマタブルな人間のアバターを生成する新しい方法である。
身体運動と衣服運動の両方に条件付されたポーズ駆動型変形可能なニューラルラディアンス場を導入し、両方の部品を明示的に制御する。
本手法は,身体から高度に逸脱する自然の衣服のダイナミックスを描画し,目に見えない景色とポーズの両方に一般化することができる。
論文 参考訳(メタデータ) (2024-01-27T08:48:18Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文 参考訳(メタデータ) (2022-02-11T13:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。