論文の概要: DisPose: Disentangling Pose Guidance for Controllable Human Image Animation
- arxiv url: http://arxiv.org/abs/2412.09349v2
- Date: Fri, 13 Dec 2024 03:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:57.734976
- Title: DisPose: Disentangling Pose Guidance for Controllable Human Image Animation
- Title(参考訳): DisPose: コントロール可能な人間のイメージアニメーションのためのポス・ガイダンスを遠ざける
- Authors: Hongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen,
- Abstract要約: 本稿では、高密度入力を伴わずに、より汎用的で効果的な制御信号を抽出するDisPoseを提案する。
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に分解する。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
- 参考スコア(独自算出の注目度): 13.366879755548636
- License:
- Abstract: Controllable human image animation aims to generate videos from reference images using driving videos. Due to the limited control signals provided by sparse guidance (e.g., skeleton pose), recent works have attempted to introduce additional dense conditions (e.g., depth map) to ensure motion alignment. However, such strict dense guidance impairs the quality of the generated video when the body shape of the reference character differs significantly from that of the driving video. In this paper, we present DisPose to mine more generalizable and effective control signals without additional dense input, which disentangles the sparse skeleton pose in human image animation into motion field guidance and keypoint correspondence. Specifically, we generate a dense motion field from a sparse motion field and the reference image, which provides region-level dense guidance while maintaining the generalization of the sparse pose control. We also extract diffusion features corresponding to pose keypoints from the reference image, and then these point features are transferred to the target pose to provide distinct identity information. To seamlessly integrate into existing models, we propose a plug-and-play hybrid ControlNet that improves the quality and consistency of generated videos while freezing the existing model parameters. Extensive qualitative and quantitative experiments demonstrate the superiority of DisPose compared to current methods. Code: \href{https://github.com/lihxxx/DisPose}{https://github.com/lihxxx/DisPose}.
- Abstract(参考訳): 制御可能な人間の画像アニメーションは、駆動ビデオを使用して参照画像からビデオを生成することを目的としている。
スパース誘導による限られた制御信号(例えば骨格ポーズ)により、最近の研究は、動きのアライメントを確保するために、さらに高密度な条件(例えば深度マップ)を導入しようと試みている。
しかし、このような厳密なガイダンスは、基準キャラクタの本体形状が駆動ビデオと大きく異なる場合、生成ビデオの品質を損なう。
本稿では,人間の画像アニメーションにおけるスパース骨格のポーズを,移動場誘導やキーポイント対応に切り離すような,高密度入力を伴わないより汎用的で効果的な制御信号のマイニングを行う。
具体的には、スパースポーズ制御の一般化を維持しつつ、領域レベルの濃密なガイダンスを提供するスパース運動場と参照画像から濃密な運動場を生成する。
また、参照画像からポーズキーポイントに対応する拡散特徴を抽出し、これらの特徴をターゲットポーズに転送し、異なる識別情報を提供する。
既存のモデルにシームレスに統合するために,既存のモデルパラメータを凍結しながら生成したビデオの品質と一貫性を向上させるプラグイン・アンド・プレイ・ハイブリッド・コントロールネットを提案する。
大規模な定性的および定量的実験は、現在の方法と比較してDisPoseの優位性を示している。
コード: \href{https://github.com/lihxxx/DisPose}{https://github.com/lihxxx/DisPose}
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Bidirectionally Deformable Motion Modulation For Video-based Human Pose
Transfer [19.5025303182983]
ビデオベースのヒューマンポーズ転送は、ビデオからビデオへの生成タスクであり、一連のターゲットの人間のポーズに基づいて、プレーンソースのヒューマンイメージを識別する。
本稿では,不連続な特徴アライメントとスタイル転送を同時に行うために,適応重み変調を用いた幾何学的カーネルオフセットを用いた新しい変形可能運動変調(DMM)を提案する。
論文 参考訳(メタデータ) (2023-07-15T09:24:45Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。