論文の概要: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons
- arxiv url: http://arxiv.org/abs/2401.13363v1
- Date: Wed, 24 Jan 2024 10:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:56:47.276987
- Title: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons
- Title(参考訳): ダンスをしたい人:複数人によるゼロショットの人間のダンス生成
- Authors: Zhe Xu, Kun Wei, Xu Yang, Cheng Deng
- Abstract要約: コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
- 参考スコア(独自算出の注目度): 73.21855272778616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human dance generation (HDG) aims to synthesize realistic videos from images
and sequences of driving poses. Despite great success, existing methods are
limited to generating videos of a single person with specific backgrounds,
while the generalizability for real-world scenarios with multiple persons and
complex backgrounds remains unclear. To systematically measure the
generalizability of HDG models, we introduce a new task, dataset, and
evaluation protocol of compositional human dance generation (cHDG). Evaluating
the state-of-the-art methods on cHDG, we empirically find that they fail to
generalize to real-world scenarios. To tackle the issue, we propose a novel
zero-shot framework, dubbed MultiDance-Zero, that can synthesize videos
consistent with arbitrary multiple persons and background while precisely
following the driving poses. Specifically, in contrast to straightforward DDIM
or null-text inversion, we first present a pose-aware inversion method to
obtain the noisy latent code and initialization text embeddings, which can
accurately reconstruct the composed reference image. Since directly generating
videos from them will lead to severe appearance inconsistency, we propose a
compositional augmentation strategy to generate augmented images and utilize
them to optimize a set of generalizable text embeddings. In addition,
consistency-guided sampling is elaborated to encourage the background and
keypoints of the estimated clean image at each reverse step to be close to
those of the reference image, further improving the temporal consistency of
generated videos. Extensive qualitative and quantitative results demonstrate
the effectiveness and superiority of our approach.
- Abstract(参考訳): ヒューマン・ダンス・ジェネレーション(HDG)は、実写映像と運転ポーズのシーケンスからリアルな映像を合成することを目的としている。
大きな成功にもかかわらず、既存の手法は特定の背景を持つ1人のビデオに限られる一方で、複数の人物と複雑な背景を持つ現実のシナリオの一般化性は依然として不明である。
hdgモデルの一般化性を体系的に測定するために,構成的ヒトダンス生成(chdg)のタスク,データセット,評価プロトコルを提案する。
cHDGの最先端手法を評価することで,実世界のシナリオに一般化できないことを実証的に見出した。
そこで本研究では,任意の人物や背景に整合した映像を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
具体的には、単純なddimやnullテキストインバージョンとは対照的に、まず、ノイズの多い潜在コードと初期化テキスト埋め込みを得るためのポーズ対応インバージョン法を示し、構成された参照画像を正確に再構成する。
そこで本研究では,映像から直接映像を生成することで,映像を合成し,一般化可能なテキスト埋め込みの集合を最適化する合成拡張戦略を提案する。
さらに、各逆ステップにおける推定クリーン画像の背景およびキーポイントを基準画像のそれに近いものに促進し、さらに生成されたビデオの時間的一貫性を向上させるために、整合性誘導サンプリングを精査する。
定性的かつ定量的な結果は,我々のアプローチの有効性と優位性を示している。
関連論文リスト
- VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - ARAH: Animatable Volume Rendering of Articulated Human SDFs [37.48271522183636]
本研究では, 分布外ポーズによく適応する詳細な形状の, アニマタブルな衣服付きアバターを作成するモデルを提案する。
提案アルゴリズムは,未知のポーズをよく一般化しながら,効率的な点サンプリングと正確な点正準化を実現する。
本手法は, アニマタブルアバターを作成しながら, 幾何と外観再構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T17:56:59Z) - Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。
我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文 参考訳(メタデータ) (2022-04-25T17:51:38Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。