論文の概要: High-Fidelity and Long-Duration Human Image Animation with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2512.21905v1
- Date: Fri, 26 Dec 2025 07:36:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:06:47.282739
- Title: High-Fidelity and Long-Duration Human Image Animation with Diffusion Transformer
- Title(参考訳): 拡散変換器を用いた高精細長人間の画像アニメーション
- Authors: Shen Zheng, Jiaran Cai, Yuansheng Guan, Shenneng Huang, Xingpei Ma, Junjie Cao, Hanfeng Zhao, Qiang Zhang, Shunsi Zhang, Xiao-Ping Zhang,
- Abstract要約: 拡散トランスフォーマ(DiT)ベースのフレームワークを提案する。
まず,一組のハイブリッド暗黙誘導信号とシャープネス誘導因子を設計し,より詳細な顔と手の特徴をガイダンスとして組み込むことを可能にした。
次に、タイムアウェアな位置シフト融合モジュールを組み込み、DiTバックボーン内の入力フォーマットを変更し、この機構を位置シフト適応モジュールと呼ぶ。
- 参考スコア(独自算出の注目度): 17.388852038062705
- License:
- Abstract: Recent progress in diffusion models has significantly advanced the field of human image animation. While existing methods can generate temporally consistent results for short or regular motions, significant challenges remain, particularly in generating long-duration videos. Furthermore, the synthesis of fine-grained facial and hand details remains under-explored, limiting the applicability of current approaches in real-world, high-quality applications. To address these limitations, we propose a diffusion transformer (DiT)-based framework which focuses on generating high-fidelity and long-duration human animation videos. First, we design a set of hybrid implicit guidance signals and a sharpness guidance factor, enabling our framework to additionally incorporate detailed facial and hand features as guidance. Next, we incorporate the time-aware position shift fusion module, modify the input format within the DiT backbone, and refer to this mechanism as the Position Shift Adaptive Module, which enables video generation of arbitrary length. Finally, we introduce a novel data augmentation strategy and a skeleton alignment model to reduce the impact of human shape variations across different identities. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches, achieving superior performance in both high-fidelity and long-duration human image animation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、人間の画像アニメーションの分野を著しく進歩させてきた。
既存の手法では、短い動きや規則的な動きに対して時間的に一貫した結果を生成することができるが、特に長期ビデオの生成において大きな課題が残る。
さらに、きめ細かい顔と手の詳細の合成は未解明のままであり、現実の高品質なアプリケーションにおける現在のアプローチの適用性を制限している。
これらの制約に対処するために,高忠実かつ長期のアニメーションビデオを生成することに焦点を当てた拡散トランスフォーマー(DiT)ベースのフレームワークを提案する。
まず,一組のハイブリッド暗黙誘導信号とシャープネス誘導因子を設計し,より詳細な顔と手の特徴をガイダンスとして組み込むことを可能にした。
次に、タイムアウェアな位置シフト融合モジュールを組み込み、DiTバックボーン内の入力フォーマットを変更し、この機構を任意の長さのビデオ生成を可能にする位置シフト適応モジュールと呼ぶ。
最後に,新しいデータ拡張戦略と骨格アライメントモデルを導入し,異なるアイデンティティ間での人体形状の変化の影響を低減した。
実験結果から,本手法は既存の最先端手法よりも優れ,高忠実度・長期人間の画像アニメーションにおいて優れた性能を発揮することが示された。
関連論文リスト
- EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [18.910745982208965]
TalkingPoseは、時間的に一貫した人間の上半身アニメーションを作成するための新しい拡散ベースのフレームワークである。
画像ベース拡散モデルに基づくフィードバック駆動機構を導入し,連続的な動きを確実にし,時間的コヒーレンスを高める。
また、人間の上半身アニメーションの新しいベンチマークとして、包括的で大規模なデータセットも導入した。
論文 参考訳(メタデータ) (2025-11-30T14:26:24Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions [12.46263584777151]
我々はtextbfOpen-HyperMotionX データセットと textbfHyperMotionX Bench を導入する。
また、簡易だが強力なDiTベースのビデオ生成ベースラインを提案し、空間的低周波化 RoPE を設計する。
本手法は,高ダイナミックな人間の動作シーケンスにおける構造安定性と外観の整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-29T01:30:46Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance [9.898947423344884]
本稿では,DreamActor-M1 を用いた拡散トランスフォーマ (DiT) ベースのフレームワークを提案する。
動作誘導のために、暗黙の表情、3次元頭部球体、および3次元体骨格を統合したハイブリッド制御信号は、表情と身体運動の堅牢な制御を実現する。
実験により,本手法は,肖像画,上半身,全体生成の表現的結果を提示し,最先端の成果よりも優れることが示された。
論文 参考訳(メタデータ) (2025-04-02T13:30:32Z) - EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。