論文の概要: MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model
- arxiv url: http://arxiv.org/abs/2311.16498v1
- Date: Mon, 27 Nov 2023 18:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:59:37.618999
- Title: MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model
- Title(参考訳): magicanimate:拡散モデルを用いた時間的一貫性のある人間の画像アニメーション
- Authors: Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu,
Chenxu Zhang, Jiashi Feng, Mike Zheng Shou
- Abstract要約: 本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
- 参考スコア(独自算出の注目度): 74.84435399451573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the human image animation task, which aims to generate a
video of a certain reference identity following a particular motion sequence.
Existing animation works typically employ the frame-warping technique to
animate the reference image towards the target motion. Despite achieving
reasonable results, these approaches face challenges in maintaining temporal
consistency throughout the animation due to the lack of temporal modeling and
poor preservation of reference identity. In this work, we introduce
MagicAnimate, a diffusion-based framework that aims at enhancing temporal
consistency, preserving reference image faithfully, and improving animation
fidelity. To achieve this, we first develop a video diffusion model to encode
temporal information. Second, to maintain the appearance coherence across
frames, we introduce a novel appearance encoder to retain the intricate details
of the reference image. Leveraging these two innovations, we further employ a
simple video fusion technique to encourage smooth transitions for long video
animation. Empirical results demonstrate the superiority of our method over
baseline approaches on two benchmarks. Notably, our approach outperforms the
strongest baseline by over 38% in terms of video fidelity on the challenging
TikTok dancing dataset. Code and model will be made available.
- Abstract(参考訳): 本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
適切な結果を得たにもかかわらず、これらのアプローチは、時間的モデリングの欠如と参照アイデンティティの保存不足により、アニメーション全体を通して時間的一貫性を維持するという課題に直面している。
本稿では,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした拡散型フレームワークMagicAnimateを紹介する。
そこで我々はまず,時間情報をエンコードするビデオ拡散モデルを開発した。
次に、フレーム間の外観コヒーレンスを維持するために、参照画像の複雑な詳細を保持する新しい外観エンコーダを導入する。
この2つのイノベーションを活用して,ビデオアニメーションのスムーズな移行を促進するために,簡単なビデオ融合技術も活用した。
2つのベンチマークのベースラインアプローチよりも,本手法の方が優れていることを示す。
特に、我々のアプローチは、挑戦的なTikTokダンスデータセットにおけるビデオの忠実度において、最強のベースラインを38%以上上回っている。
コードとモデルは利用可能になる。
関連論文リスト
- Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for
Character Animation [29.35175159679592]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - AnimateAnything: Fine-Grained Open Domain Image Animation with Motion
Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。
本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。
オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-21T03:47:54Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - SketchBetween: Video-to-Video Synthesis for Sprite Animation via
Sketches [0.9645196221785693]
2Dアニメーションは、キャラクター、エフェクト、バックグラウンドアートに使用されるゲーム開発において一般的な要素である。
アニメーションの自動化アプローチは存在するが、アニメーションを念頭に置いて設計されている。
本稿では,アニメーションの標準的なワークフローにより密着した問題定式化を提案する。
論文 参考訳(メタデータ) (2022-09-01T02:43:19Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。