論文の概要: TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation
- arxiv url: http://arxiv.org/abs/2410.24037v1
- Date: Thu, 31 Oct 2024 15:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:38.925093
- Title: TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation
- Title(参考訳): TPC: 拡散に基づく人体画像アニメーションのためのテストタイムプロクリスト校正
- Authors: Sunjae Yoon, Gwanhyeong Koo, Younghwan Lee, Chang D. Yoo,
- Abstract要約: 人間の画像アニメーションは、参照された人間の画像と対象のモーションビデオの入力から人間のモーションビデオを生成することを目的としている。
現在の拡散に基づく画像アニメーションシステムは、人間のアイデンティティを目標運動に転送する精度が高いが、出力に不規則な品質を示す。
提案手法は単純で,任意の拡散型画像アニメーションシステムにモデルに依存しない方法で適用することができる。
- 参考スコア(独自算出の注目度): 19.823015917720284
- License:
- Abstract: Human image animation aims to generate a human motion video from the inputs of a reference human image and a target motion video. Current diffusion-based image animation systems exhibit high precision in transferring human identity into targeted motion, yet they still exhibit irregular quality in their outputs. Their optimal precision is achieved only when the physical compositions (i.e., scale and rotation) of the human shapes in the reference image and target pose frame are aligned. In the absence of such alignment, there is a noticeable decline in fidelity and consistency. Especially, in real-world environments, this compositional misalignment commonly occurs, posing significant challenges to the practical usage of current systems. To this end, we propose Test-time Procrustes Calibration (TPC), which enhances the robustness of diffusion-based image animation systems by maintaining optimal performance even when faced with compositional misalignment, effectively addressing real-world scenarios. The TPC provides a calibrated reference image for the diffusion model, enhancing its capability to understand the correspondence between human shapes in the reference and target images. Our method is simple and can be applied to any diffusion-based image animation system in a model-agnostic manner, improving the effectiveness at test time without additional training.
- Abstract(参考訳): 人間の画像アニメーションは、参照された人間の画像と対象のモーションビデオの入力から人間のモーションビデオを生成することを目的としている。
現在の拡散に基づく画像アニメーションシステムは、人間のアイデンティティを目標運動に転送する精度が高いが、出力に不規則な品質を示す。
それらの最適精度は、基準画像及びターゲットポーズフレーム内の人間の形状の物理的構成(すなわち、スケールと回転)が整列された場合にのみ達成される。
このようなアライメントがないと、忠実さと一貫性が著しく低下する。
特に現実の環境では、この構成上のミスアライメントは一般的に発生し、現在のシステムの実用上重要な課題となっている。
そこで本研究では,TPC(Test-time Procrustes Calibration)を提案する。これは,合成ミスアライメントに直面した場合でも最適な性能を維持し,実世界のシナリオに効果的に対処することで,拡散に基づく画像アニメーションシステムの堅牢性を向上させる。
TPCは拡散モデルに対する校正基準画像を提供し、基準画像と対象画像の人間の形状の対応性を理解する能力を高める。
提案手法は単純で,任意の拡散型画像アニメーションシステムに対して,モデルに依存しない方法で適用可能であり,追加のトレーニングを伴わずにテスト時間における有効性を向上させることができる。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance [25.346255905155424]
本稿では,潜伏拡散フレームワーク内での3次元人間のパラメトリックモデルを活用することで,人間の画像アニメーションの方法論を提案する。
人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。
提案手法は,提案した組込みデータセットに対して,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-03-21T18:52:58Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency [89.75731026852338]
映像のコヒーレント化のための空間適応型アライメントフレームワークを提案する。
我々は,セマンティック相関写像を,知覚整合運動におけるスタイルに依存しないグローバルな正規化として考案する。
本手法は,高度にスタイリスティックで時間的に一貫したマンガ映像を生成することができる。
論文 参考訳(メタデータ) (2022-04-02T07:59:02Z) - Imposing Temporal Consistency on Deep Monocular Body Shape and Pose
Estimation [67.23327074124855]
本稿では,適合過程における時間的制約の統合に対するエレガントな解法を提案する。
我々は、顎ポーズ、表情、指ポーズを含む人物の形状と動きを表す一連の身体モデルのパラメーターを導出する。
本手法は,表情や手話を含む画像系列からリアルな3次元体モデルの導出を可能にする。
論文 参考訳(メタデータ) (2022-02-07T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。