論文の概要: Animate-X: Universal Character Image Animation with Enhanced Motion Representation
- arxiv url: http://arxiv.org/abs/2410.10306v1
- Date: Mon, 14 Oct 2024 09:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:24:32.234803
- Title: Animate-X: Universal Character Image Animation with Enhanced Motion Representation
- Title(参考訳): Animate-X: 運動表現を増強したユニバーサルキャラクタ画像アニメーション
- Authors: Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang,
- Abstract要約: Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。
我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。
また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 42.73097432203482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character image animation, which generates high-quality videos from a reference image and target pose sequence, has seen significant progress in recent years. However, most existing methods only apply to human figures, which usually do not generalize well on anthropomorphic characters commonly used in industries like gaming and entertainment. Our in-depth analysis suggests to attribute this limitation to their insufficient modeling of motion, which is unable to comprehend the movement pattern of the driving video, thus imposing a pose sequence rigidly onto the target character. To this end, this paper proposes Animate-X, a universal animation framework based on LDM for various character types (collectively named X), including anthropomorphic characters. To enhance motion representation, we introduce the Pose Indicator, which captures comprehensive motion pattern from the driving video through both implicit and explicit manner. The former leverages CLIP visual features of a driving video to extract its gist of motion, like the overall movement pattern and temporal relations among motions, while the latter strengthens the generalization of LDM by simulating possible inputs in advance that may arise during inference. Moreover, we introduce a new Animated Anthropomorphic Benchmark (A^2Bench) to evaluate the performance of Animate-X on universal and widely applicable animation images. Extensive experiments demonstrate the superiority and effectiveness of Animate-X compared to state-of-the-art methods.
- Abstract(参考訳): 基準画像とターゲットポーズシーケンスから高品質な映像を生成するキャラクタ画像アニメーションは,近年,顕著な進歩を遂げている。
しかし、既存の手法のほとんどは人間にしか適用されないが、ゲームやエンターテイメントといった産業で一般的に使われる人格的キャラクターによく当てはまらない。
我々の詳細な分析では、この制限は、駆動映像の動作パターンを理解できない動きのモデリングが不十分なため、ターゲットキャラクタに強固にポーズシーケンスを付与することに起因することが示唆されている。
そこで本研究では,多種多様な文字タイプ(総称X)を対象とした汎用アニメーションフレームワークであるAnimate-Xを提案する。
動作表現を向上させるために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。
前者は、駆動ビデオのCLIP視覚的特徴を利用して、全体の動きパターンや動き間の時間的関係のような動きのギストを抽出し、後者は推論中に生じる可能性のある入力を事前にシミュレートすることでLCMの一般化を強化する。
さらに,アニメーション画像に対してAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマーク(A^2Bench)を導入する。
大規模な実験は、最先端の手法と比較してAnimate-Xの優位性と有効性を示した。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。
実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-18T17:24:28Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - AnimateAnything: Fine-Grained Open Domain Image Animation with Motion
Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。
本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。
オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-21T03:47:54Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。