論文の概要: UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2504.11289v1
- Date: Tue, 15 Apr 2025 15:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:39.818493
- Title: UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer
- Title(参考訳): UniAnimate-DiT:大規模ビデオ拡散変換器を用いた人間の画像アニメーション
- Authors: Xiang Wang, Shiwei Zhang, Longxiang Tang, Yingya Zhang, Changxin Gao, Yuehuan Wang, Nong Sang,
- Abstract要約: UniAnimate-DiTは、オープンソースのWan2.1モデルの最先端かつ強力な機能を、一貫性のある人間のイメージアニメーションに活用する高度なプロジェクトである。
最小限のパラメータセットを微調整するローランド適応(LoRA)技術を実装し、トレーニングメモリのオーバーヘッドを大幅に削減する。
実験結果から,本手法は視覚的に出現し,時間的に一貫した高忠実度アニメーションを実現する。
- 参考スコア(独自算出の注目度): 45.51168344933782
- License:
- Abstract: This report presents UniAnimate-DiT, an advanced project that leverages the cutting-edge and powerful capabilities of the open-source Wan2.1 model for consistent human image animation. Specifically, to preserve the robust generative capabilities of the original Wan2.1 model, we implement Low-Rank Adaptation (LoRA) technique to fine-tune a minimal set of parameters, significantly reducing training memory overhead. A lightweight pose encoder consisting of multiple stacked 3D convolutional layers is designed to encode motion information of driving poses. Furthermore, we adopt a simple concatenation operation to integrate the reference appearance into the model and incorporate the pose information of the reference image for enhanced pose alignment. Experimental results show that our approach achieves visually appearing and temporally consistent high-fidelity animations. Trained on 480p (832x480) videos, UniAnimate-DiT demonstrates strong generalization capabilities to seamlessly upscale to 720P (1280x720) during inference. The training and inference code is publicly available at https://github.com/ali-vilab/UniAnimate-DiT.
- Abstract(参考訳): 本報告では、オープンソースのWan2.1モデルの最先端かつ強力な機能を活用して、一貫した人間の画像アニメーションを実現する高度なプロジェクトであるUniAnimate-DiTについて述べる。
具体的には、元のWan2.1モデルの堅牢な生成能力を保ちながら、最小限のパラメータを微調整し、トレーニングメモリのオーバーヘッドを大幅に削減するローランド適応(LoRA)技術を実装している。
複数の積み重ねられた3次元畳み込み層からなる軽量ポーズエンコーダは、駆動ポーズの動作情報を符号化するように設計されている。
さらに、簡単な結合操作を採用し、参照外観をモデルに統合し、参照画像のポーズ情報を組み込んでポーズアライメントを強化する。
実験結果から,本手法は視覚的に出現し,時間的に一貫した高忠実度アニメーションを実現する。
480p (832x480)ビデオでトレーニングされたUniAnimate-DiTは、推論中に720P (1280x720)までシームレスにスケールアップできる強力な一般化機能を示している。
トレーニングと推論のコードはhttps://github.com/ali-vilab/UniAnimate-DiT.comで公開されている。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。