Fugu-MT 論文翻訳(概要): MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

論文の概要: MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

arxiv url: http://arxiv.org/abs/2311.16498v1
Date: Mon, 27 Nov 2023 18:32:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 19:59:37.618999
Title: MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model
Title（参考訳）: magicanimate:拡散モデルを用いた時間的一貫性のある人間の画像アニメーション
Authors: Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou
Abstract要約: 本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
参考スコア（独自算出の注目度）: 74.84435399451573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper studies the human image animation task, which aims to generate a video of a certain reference identity following a particular motion sequence. Existing animation works typically employ the frame-warping technique to animate the reference image towards the target motion. Despite achieving reasonable results, these approaches face challenges in maintaining temporal consistency throughout the animation due to the lack of temporal modeling and poor preservation of reference identity. In this work, we introduce MagicAnimate, a diffusion-based framework that aims at enhancing temporal consistency, preserving reference image faithfully, and improving animation fidelity. To achieve this, we first develop a video diffusion model to encode temporal information. Second, to maintain the appearance coherence across frames, we introduce a novel appearance encoder to retain the intricate details of the reference image. Leveraging these two innovations, we further employ a simple video fusion technique to encourage smooth transitions for long video animation. Empirical results demonstrate the superiority of our method over baseline approaches on two benchmarks. Notably, our approach outperforms the strongest baseline by over 38% in terms of video fidelity on the challenging TikTok dancing dataset. Code and model will be made available.
Abstract（参考訳）: 本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。適切な結果を得たにもかかわらず、これらのアプローチは、時間的モデリングの欠如と参照アイデンティティの保存不足により、アニメーション全体を通して時間的一貫性を維持するという課題に直面している。本稿では,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした拡散型フレームワークMagicAnimateを紹介する。そこで我々はまず,時間情報をエンコードするビデオ拡散モデルを開発した。次に、フレーム間の外観コヒーレンスを維持するために、参照画像の複雑な詳細を保持する新しい外観エンコーダを導入する。この2つのイノベーションを活用して,ビデオアニメーションのスムーズな移行を促進するために,簡単なビデオ融合技術も活用した。 2つのベンチマークのベースラインアプローチよりも,本手法の方が優れていることを示す。特に、我々のアプローチは、挑戦的なTikTokダンスデータセットにおけるビデオの忠実度において、最強のベースラインを38%以上上回っている。コードとモデルは利用可能になる。

関連論文リスト

Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-29T13:08:12Z)
UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:10Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文参考訳（メタデータ） (2024-04-14T07:36:18Z)
AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。 AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文参考訳（メタデータ） (2024-04-07T12:57:41Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。