論文の概要: SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
- arxiv url: http://arxiv.org/abs/2511.19320v1
- Date: Mon, 24 Nov 2025 17:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.334585
- Title: SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
- Title(参考訳): SteadyDancer: ファーストフレーム保存によるハーモニゼーションとコヒーレントな人間のイメージアニメーション
- Authors: Jiaming Zhang, Shengming Cao, Rui Li, Xiaotong Zhao, Yutao Cui, Xinglin Hou, Gangshan Wu, Haolan Chen, Yu Xu, Limin Wang, Kai Ma,
- Abstract要約: 本稿では,高調波とコヒーレントなアニメーションを実現するR2V(Image-to-Video)パラダイムベースのフレームワークであるSteadyDancerを紹介する。
実験により,SteadyDancerは外観の忠実さとモーションコントロールの両方において最先端の性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 50.792027578906804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preserving first-frame identity while ensuring precise motion control is a fundamental challenge in human image animation. The Image-to-Motion Binding process of the dominant Reference-to-Video (R2V) paradigm overlooks critical spatio-temporal misalignments common in real-world applications, leading to failures such as identity drift and visual artifacts. We introduce SteadyDancer, an Image-to-Video (I2V) paradigm-based framework that achieves harmonized and coherent animation and is the first to ensure first-frame preservation robustly. Firstly, we propose a Condition-Reconciliation Mechanism to harmonize the two conflicting conditions, enabling precise control without sacrificing fidelity. Secondly, we design Synergistic Pose Modulation Modules to generate an adaptive and coherent pose representation that is highly compatible with the reference image. Finally, we employ a Staged Decoupled-Objective Training Pipeline that hierarchically optimizes the model for motion fidelity, visual quality, and temporal coherence. Experiments demonstrate that SteadyDancer achieves state-of-the-art performance in both appearance fidelity and motion control, while requiring significantly fewer training resources than comparable methods.
- Abstract(参考訳): 正確なモーションコントロールを確保しつつ、ファーストフレームのアイデンティティを保持することは、人間の画像アニメーションにおける根本的な課題である。
支配的なリファレンス・トゥ・ビデオ(R2V)パラダイムのイメージ・ツー・モーション・バインディングプロセスは、現実のアプリケーションに共通する時間的空間的ミスアライメントを見逃し、アイデンティティドリフトやビジュアルアーティファクトといった失敗に繋がる。
我々は、高調波とコヒーレントなアニメーションを実現し、第1フレームの保存を確実にする最初のフレームワークであるSteadyDancerを紹介した。
まず,相反する2つの条件を調和させ,忠実さを犠牲にすることなく正確な制御を可能にする条件緩和機構を提案する。
次に、参照画像と高い互換性を持つ適応的で一貫性のあるポーズ表現を生成するために、Synergistic Pose Modulation Modulesを設計する。
最後に,動作の忠実度,視覚的品質,時間的コヒーレンスに関するモデルを階層的に最適化する,段階的疎結合型学習パイプラインを採用する。
実験により、SteadyDancerは外観の忠実さとモーションコントロールの両方において最先端のパフォーマンスを達成する一方で、同等の手法よりもはるかに少ないトレーニングリソースを必要とすることが示された。
関連論文リスト
- PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - AvatarVTON: 4D Virtual Try-On for Animatable Avatars [67.13031660684457]
AvatarVTONは、単一のショップ内衣料品画像から現実的な試着結果を生成する。
シングルビューの監視下での動的衣料相互作用をサポートする。
AR/VR、ゲーム、デジタル・ヒューマン・アプリケーションに適している。
論文 参考訳(メタデータ) (2025-10-06T14:06:34Z) - FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文 参考訳(メタデータ) (2025-04-07T08:56:01Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。