論文の概要: Animate-X++: Universal Character Image Animation with Dynamic Backgrounds
- arxiv url: http://arxiv.org/abs/2508.09454v1
- Date: Wed, 13 Aug 2025 03:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.738427
- Title: Animate-X++: Universal Character Image Animation with Dynamic Backgrounds
- Title(参考訳): Animate-X++:動的背景を持つユニバーサルキャラクタイメージアニメーション
- Authors: Shuai Tan, Biao Gong, Zhuoxin Liu, Yan Wang, Xi Chen, Yifan Feng, Hengshuang Zhao,
- Abstract要約: Animate-X++は、擬人化文字を含む様々な文字タイプ向けのDiTに基づく普遍的なアニメーションフレームワークである。
動作表現を強化するために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。
第2の課題として、アニメーションとTI2Vタスクを共同でトレーニングするマルチタスクトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 32.04255747303296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Character image animation, which generates high-quality videos from a reference image and target pose sequence, has seen significant progress in recent years. However, most existing methods only apply to human figures, which usually do not generalize well on anthropomorphic characters commonly used in industries like gaming and entertainment. Furthermore, previous methods could only generate videos with static backgrounds, which limits the realism of the videos. For the first challenge, our in-depth analysis suggests to attribute this limitation to their insufficient modeling of motion, which is unable to comprehend the movement pattern of the driving video, thus imposing a pose sequence rigidly onto the target character. To this end, this paper proposes Animate-X++, a universal animation framework based on DiT for various character types, including anthropomorphic characters. To enhance motion representation, we introduce the Pose Indicator, which captures comprehensive motion pattern from the driving video through both implicit and explicit manner. The former leverages CLIP visual features of a driving video to extract its gist of motion, like the overall movement pattern and temporal relations among motions, while the latter strengthens the generalization of DiT by simulating possible inputs in advance that may arise during inference. For the second challenge, we introduce a multi-task training strategy that jointly trains the animation and TI2V tasks. Combined with the proposed partial parameter training, this approach achieves not only character animation but also text-driven background dynamics, making the videos more realistic. Moreover, we introduce a new Animated Anthropomorphic Benchmark (A2Bench) to evaluate the performance of Animate-X++ on universal and widely applicable animation images. Extensive experiments demonstrate the superiority and effectiveness of Animate-X++.
- Abstract(参考訳): 基準画像とターゲットポーズシーケンスから高品質な映像を生成するキャラクタ画像アニメーションは,近年,顕著な進歩を遂げている。
しかし、既存の手法のほとんどは人間にしか適用されないが、ゲームやエンターテイメントといった産業で一般的に使われる人格的キャラクターによく当てはまらない。
さらに、従来の手法では静的な背景を持つビデオしか生成できなかったため、ビデオのリアリズムが制限された。
最初の課題として、我々は、この制限を運転映像の動作パターンを理解できない動きのモデリングに当てはめることを提案し、ターゲットキャラクタにポーズシーケンスを厳格に適用した。
そこで本研究では,擬人化文字を含む多種多様な文字タイプを対象とした汎用アニメーションフレームワークであるAnimate-X++を提案する。
動作表現を向上させるために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。
前者は、駆動ビデオのCLIP視覚的特徴を利用して、全体の動きパターンや動き間の時間的関係のような動きのギストを抽出し、後者は推論中に生じる可能性のある入力を事前にシミュレートすることで、DiTの一般化を強化する。
第2の課題として、アニメーションとTI2Vタスクを共同でトレーニングするマルチタスクトレーニング戦略を導入する。
提案した部分パラメータトレーニングと組み合わせることで、文字アニメーションだけでなく、テキスト駆動の背景ダイナミクスも実現し、映像をよりリアルにすることができる。
さらに,アニメーション画像に対するAnimate-X++の性能を評価するために,新しいAnimated Anthropomorphic Benchmark (A2Bench)を導入する。
大規模な実験は、Animate-X++の優位性と有効性を示している。
関連論文リスト
- DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [64.53681498600065]
ドリームダンス(DreamDance)は、安定的で一貫したキャラクタと、正確なカメラ軌跡を条件としたシーンの動きを生成できるアニメーションフレームワークである。
我々は、背景品質を高めつつ、動的キャラクタをシーンビデオに注入する、ポーズ対応ビデオ塗装モデルを訓練する。
論文 参考訳(メタデータ) (2025-05-30T15:54:34Z) - Learning to Animate Images from A Few Videos to Portray Delicate Human Actions [80.61838364885482]
ビデオ生成モデルは、人間の繊細なアクションを描写するビデオに静的イメージをアニメーション化するのに依然として苦労している。
本稿では,映像をアニメーション化し,微妙な人間の行動を表現するための学習課題について,少数のビデオを用いて検討する。
本研究では、他の動画の動画特徴とフレーム間の対応を利用して、モデルに映像の再構成を強制することで、一般化可能な動きパターンを学習するFLASHを提案する。
論文 参考訳(メタデータ) (2025-03-01T01:09:45Z) - Animate-X: Universal Character Image Animation with Enhanced Motion Representation [42.73097432203482]
Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。
我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。
また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-10-14T09:06:55Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。