Fugu-MT 論文翻訳(概要): Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons

論文の概要: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons

arxiv url: http://arxiv.org/abs/2401.13363v1
Date: Wed, 24 Jan 2024 10:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:56:47.276987
Title: Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons
Title（参考訳）: ダンスをしたい人:複数人によるゼロショットの人間のダンス生成
Authors: Zhe Xu, Kun Wei, Xu Yang, Cheng Deng
Abstract要約: コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
参考スコア（独自算出の注目度）: 73.21855272778616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human dance generation (HDG) aims to synthesize realistic videos from images and sequences of driving poses. Despite great success, existing methods are limited to generating videos of a single person with specific backgrounds, while the generalizability for real-world scenarios with multiple persons and complex backgrounds remains unclear. To systematically measure the generalizability of HDG models, we introduce a new task, dataset, and evaluation protocol of compositional human dance generation (cHDG). Evaluating the state-of-the-art methods on cHDG, we empirically find that they fail to generalize to real-world scenarios. To tackle the issue, we propose a novel zero-shot framework, dubbed MultiDance-Zero, that can synthesize videos consistent with arbitrary multiple persons and background while precisely following the driving poses. Specifically, in contrast to straightforward DDIM or null-text inversion, we first present a pose-aware inversion method to obtain the noisy latent code and initialization text embeddings, which can accurately reconstruct the composed reference image. Since directly generating videos from them will lead to severe appearance inconsistency, we propose a compositional augmentation strategy to generate augmented images and utilize them to optimize a set of generalizable text embeddings. In addition, consistency-guided sampling is elaborated to encourage the background and keypoints of the estimated clean image at each reverse step to be close to those of the reference image, further improving the temporal consistency of generated videos. Extensive qualitative and quantitative results demonstrate the effectiveness and superiority of our approach.
Abstract（参考訳）: ヒューマン・ダンス・ジェネレーション(HDG)は、実写映像と運転ポーズのシーケンスからリアルな映像を合成することを目的としている。大きな成功にもかかわらず、既存の手法は特定の背景を持つ1人のビデオに限られる一方で、複数の人物と複雑な背景を持つ現実のシナリオの一般化性は依然として不明である。 hdgモデルの一般化性を体系的に測定するために,構成的ヒトダンス生成(chdg)のタスク,データセット,評価プロトコルを提案する。 cHDGの最先端手法を評価することで,実世界のシナリオに一般化できないことを実証的に見出した。そこで本研究では,任意の人物や背景に整合した映像を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。具体的には、単純なddimやnullテキストインバージョンとは対照的に、まず、ノイズの多い潜在コードと初期化テキスト埋め込みを得るためのポーズ対応インバージョン法を示し、構成された参照画像を正確に再構成する。そこで本研究では,映像から直接映像を生成することで,映像を合成し,一般化可能なテキスト埋め込みの集合を最適化する合成拡張戦略を提案する。さらに、各逆ステップにおける推定クリーン画像の背景およびキーポイントを基準画像のそれに近いものに促進し、さらに生成されたビデオの時間的一貫性を向上させるために、整合性誘導サンプリングを精査する。定性的かつ定量的な結果は,我々のアプローチの有効性と優位性を示している。

関連論文リスト

GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.19207713016543]
動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
論文参考訳（メタデータ） (2024-12-26T07:04:20Z)
CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-12-15T05:57:36Z)
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文参考訳（メタデータ） (2024-08-10T08:09:57Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文参考訳（メタデータ） (2022-04-25T17:51:38Z)
Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文参考訳（メタデータ） (2021-12-27T20:13:53Z)
A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文参考訳（メタデータ） (2021-12-09T18:59:21Z)
Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文参考訳（メタデータ） (2021-10-27T03:42:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。