論文の概要: Zero-shot High-fidelity and Pose-controllable Character Animation
- arxiv url: http://arxiv.org/abs/2404.13680v3
- Date: Wed, 5 Jun 2024 07:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:20:37.875812
- Title: Zero-shot High-fidelity and Pose-controllable Character Animation
- Title(参考訳): ゼロショット高忠実度とポス制御可能なキャラクタアニメーション
- Authors: Bingwen Zhu, Fanyi Wang, Tianyi Lu, Peng Liu, Jingwen Su, Jinxiu Liu, Yanhao Zhang, Zuxuan Wu, Guo-Jun Qi, Yu-Gang Jiang,
- Abstract要約: イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
- 参考スコア(独自算出の注目度): 89.74818983864832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-video (I2V) generation aims to create a video sequence from a single image, which requires high temporal coherence and visual fidelity. However, existing approaches suffer from inconsistency of character appearances and poor preservation of fine details. Moreover, they require a large amount of video data for training, which can be computationally demanding. To address these limitations, we propose PoseAnimate, a novel zero-shot I2V framework for character animation. PoseAnimate contains three key components: 1) a Pose-Aware Control Module (PACM) that incorporates diverse pose signals into text embeddings, to preserve character-independent content and maintain precise alignment of actions. 2) a Dual Consistency Attention Module (DCAM) that enhances temporal consistency and retains character identity and intricate background details. 3) a Mask-Guided Decoupling Module (MGDM) that refines distinct feature perception abilities, improving animation fidelity by decoupling the character and background. We also propose a Pose Alignment Transition Algorithm (PATA) to ensure smooth action transition. Extensive experiment results demonstrate that our approach outperforms the state-of-the-art training-based methods in terms of character consistency and detail fidelity. Moreover, it maintains a high level of temporal coherence throughout the generated animations.
- Abstract(参考訳): 画像対ビデオ生成(I2V)は、高時間的コヒーレンスと視覚的忠実度を必要とする単一の画像からビデオシーケンスを作成することを目的としている。
しかし、既存のアプローチはキャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
さらに、トレーニングには大量のビデオデータが必要です。
これらの制約に対処するため,文字アニメーションのための新しいゼロショットI2VフレームワークであるPoseAnimateを提案する。
PoseAnimateには3つの重要なコンポーネントが含まれている。
1)多彩なポーズ信号をテキスト埋め込みに組み込んで、文字に依存しないコンテンツを保存し、アクションの正確なアライメントを維持するPose-Aware Control Module(PACM)。
2)DCAM(Dual Consistency Attention Module)は,時間的一貫性を高め,文字識別と複雑な背景情報を保持するモジュールである。
3) Mask-Guided Decoupling Module (MGDM) は特徴認識能力を洗練させ,文字と背景を分離することでアニメーションの忠実度を向上させる。
また、スムーズな動作遷移を保証するために、PATA(Pose Alignment Transition Algorithm)を提案する。
実験結果から,本手法は,文字の一貫性と細部忠実度の観点から,最先端のトレーニングベース手法よりも優れていることが示された。
さらに、生成されたアニメーション全体を通して、高レベルの時間的コヒーレンスを維持している。
関連論文リスト
- StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z) - Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。
我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。
提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-29T13:08:12Z) - Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。
われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。