論文の概要: DisCo: Disentangled Control for Referring Human Dance Generation in Real
World
- arxiv url: http://arxiv.org/abs/2307.00040v1
- Date: Fri, 30 Jun 2023 17:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 18:20:50.552253
- Title: DisCo: Disentangled Control for Referring Human Dance Generation in Real
World
- Title(参考訳): DisCo:現実世界における人間のダンス生成の参照制御
- Authors: Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang,
Hanwang Zhang, Zicheng Liu, Lijuan Wang
- Abstract要約: 既存のダンス合成手法は、合成されたコンテンツと現実世界のダンスシナリオのギャップに苦労する。
ダンス合成の忠実さと構成性を改善するために,不整合制御をもつ新しいモデルアーキテクチャであるdisCOを導入する。
DISCOは、さまざまな外観と柔軟な動きを持つ高品質な人間のダンスイメージとビデオを生成することができる。
- 参考スコア(独自算出の注目度): 108.57382292866977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has made significant strides in computer vision, particularly
in image/video synthesis conditioned on text descriptions. Despite the
advancements, it remains challenging especially in the generation of
human-centric content such as dance synthesis. Existing dance synthesis methods
struggle with the gap between synthesized content and real-world dance
scenarios. In this paper, we define a new problem setting: Referring Human
Dance Generation, which focuses on real-world dance scenarios with three
important properties: (i) Faithfulness: the synthesis should retain the
appearance of both human subject foreground and background from the reference
image, and precisely follow the target pose; (ii) Generalizability: the model
should generalize to unseen human subjects, backgrounds, and poses; (iii)
Compositionality: it should allow for composition of seen/unseen subjects,
backgrounds, and poses from different sources. To address these challenges, we
introduce a novel approach, DISCO, which includes a novel model architecture
with disentangled control to improve the faithfulness and compositionality of
dance synthesis, and an effective human attribute pre-training for better
generalizability to unseen humans. Extensive qualitative and quantitative
results demonstrate that DISCO can generate high-quality human dance images and
videos with diverse appearances and flexible motions. Code, demo, video and
visualization are available at: https://disco-dance.github.io/.
- Abstract(参考訳): 生成aiはコンピュータビジョン、特にテキスト記述に基づく画像/ビデオ合成において大きな進歩を遂げている。
進歩にもかかわらず、特にダンス合成のような人間中心のコンテンツの生成は困難である。
既存のダンス合成手法は、合成されたコンテンツと現実世界のダンスシナリオのギャップに苦しむ。
本稿では,3つの重要な特性を持つ実世界のダンスシナリオに着目した,人間のダンス生成を参照する。
(i)忠実性:合成は、基準画像からヒトの被写体前景及び背景の両方の外観を保ち、的位置を正確に追従しなければならない。
(ii) 汎用性:モデルは、人間の被写体、背景及びポーズを知覚しないものに一般化すべきである。
(三)構成性:異なるソースから見失う被写体、背景、ポーズの合成を可能にすること。
これらの課題に対処するために,ダンス合成の忠実性と構成性を改善するために,不連続制御を備えた新しいモデルアーキテクチャであるdiscoと,知覚不能な人間の一般化性を改善するための効果的な人間属性事前学習を含む新しいアプローチを提案する。
広範囲な質的、定量的な結果から、ディスコは多様な外観と柔軟な動きを持つ高品質な人間のダンスイメージや動画を生成できることが示されている。
コード、デモ、ビデオ、ビジュアライゼーションはhttps://disco-dance.github.io/。
関連論文リスト
- Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Adversarial Attention for Human Motion Synthesis [3.9378507882929563]
本稿では,エンド・ツー・エンドトレーニングを用いた注意型確率的深層対角モデルの適用により,人間の動作合成を制御可能な新しい手法を提案する。
我々は, 対角的注意力を用いて, 短距離地平線と短距離地平線の両面に人工的な人間の動きを生成できることを実証した。
論文 参考訳(メタデータ) (2022-04-25T16:12:42Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。