論文の概要: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons
- arxiv url: http://arxiv.org/abs/2401.13363v1
- Date: Wed, 24 Jan 2024 10:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:56:47.276987
- Title: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons
- Title(参考訳): ダンスをしたい人:複数人によるゼロショットの人間のダンス生成
- Authors: Zhe Xu, Kun Wei, Xu Yang, Cheng Deng
- Abstract要約: コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
- 参考スコア(独自算出の注目度): 73.21855272778616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human dance generation (HDG) aims to synthesize realistic videos from images
and sequences of driving poses. Despite great success, existing methods are
limited to generating videos of a single person with specific backgrounds,
while the generalizability for real-world scenarios with multiple persons and
complex backgrounds remains unclear. To systematically measure the
generalizability of HDG models, we introduce a new task, dataset, and
evaluation protocol of compositional human dance generation (cHDG). Evaluating
the state-of-the-art methods on cHDG, we empirically find that they fail to
generalize to real-world scenarios. To tackle the issue, we propose a novel
zero-shot framework, dubbed MultiDance-Zero, that can synthesize videos
consistent with arbitrary multiple persons and background while precisely
following the driving poses. Specifically, in contrast to straightforward DDIM
or null-text inversion, we first present a pose-aware inversion method to
obtain the noisy latent code and initialization text embeddings, which can
accurately reconstruct the composed reference image. Since directly generating
videos from them will lead to severe appearance inconsistency, we propose a
compositional augmentation strategy to generate augmented images and utilize
them to optimize a set of generalizable text embeddings. In addition,
consistency-guided sampling is elaborated to encourage the background and
keypoints of the estimated clean image at each reverse step to be close to
those of the reference image, further improving the temporal consistency of
generated videos. Extensive qualitative and quantitative results demonstrate
the effectiveness and superiority of our approach.
- Abstract(参考訳): ヒューマン・ダンス・ジェネレーション(HDG)は、実写映像と運転ポーズのシーケンスからリアルな映像を合成することを目的としている。
大きな成功にもかかわらず、既存の手法は特定の背景を持つ1人のビデオに限られる一方で、複数の人物と複雑な背景を持つ現実のシナリオの一般化性は依然として不明である。
hdgモデルの一般化性を体系的に測定するために,構成的ヒトダンス生成(chdg)のタスク,データセット,評価プロトコルを提案する。
cHDGの最先端手法を評価することで,実世界のシナリオに一般化できないことを実証的に見出した。
そこで本研究では,任意の人物や背景に整合した映像を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
具体的には、単純なddimやnullテキストインバージョンとは対照的に、まず、ノイズの多い潜在コードと初期化テキスト埋め込みを得るためのポーズ対応インバージョン法を示し、構成された参照画像を正確に再構成する。
そこで本研究では,映像から直接映像を生成することで,映像を合成し,一般化可能なテキスト埋め込みの集合を最適化する合成拡張戦略を提案する。
さらに、各逆ステップにおける推定クリーン画像の背景およびキーポイントを基準画像のそれに近いものに促進し、さらに生成されたビデオの時間的一貫性を向上させるために、整合性誘導サンプリングを精査する。
定性的かつ定量的な結果は,我々のアプローチの有効性と優位性を示している。
関連論文リスト
- GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.19207713016543]
動的ニューラルネットワークの最近のセットアップは、既知のポーズを持つマルチビュービデオからの入力を前提としている。
ビデオのキャプチャが安定すれば、未知のポーズを持つアンチロナイズドビデオが動的ニューラルネットワークを生成できることを示す。
論文 参考訳(メタデータ) (2024-12-26T07:04:20Z) - CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。
本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。
複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-12-15T05:57:36Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。