論文の概要: DisCo: Disentangled Control for Realistic Human Dance Generation
- arxiv url: http://arxiv.org/abs/2307.00040v2
- Date: Wed, 11 Oct 2023 10:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:19:48.115162
- Title: DisCo: Disentangled Control for Realistic Human Dance Generation
- Title(参考訳): DisCo:リアルなダンス生成のための遠方制御
- Authors: Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin,
Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
- Abstract要約: 本稿では,ダンス合成の合成性を改善するために,アンタングル制御を備えた新しいモデルアーキテクチャであるDisCoを紹介する。
DisCoは、さまざまな外観と柔軟な動きを備えた高品質な人間のダンス画像やビデオを生成することができる。
- 参考スコア(独自算出の注目度): 130.58318610083958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI has made significant strides in computer vision, particularly
in text-driven image/video synthesis (T2I/T2V). Despite the notable
advancements, it remains challenging in human-centric content synthesis such as
realistic dance generation. Current methodologies, primarily tailored for human
motion transfer, encounter difficulties when confronted with real-world dance
scenarios (e.g., social media dance) which require to generalize across a wide
spectrum of poses and intricate human details. In this paper, we depart from
the traditional paradigm of human motion transfer and emphasize two additional
critical attributes for the synthesis of human dance content in social media
contexts: (i) Generalizability: the model should be able to generalize beyond
generic human viewpoints as well as unseen human subjects, backgrounds, and
poses; (ii) Compositionality: it should allow for composition of seen/unseen
subjects, backgrounds, and poses from different sources seamlessly. To address
these challenges, we introduce DisCo, which includes a novel model architecture
with disentangled control to improve the compositionality of dance synthesis,
and an effective human attribute pre-training for better generalizability to
unseen humans. Extensive qualitative and quantitative results demonstrate that
DisCo can generate high-quality human dance images and videos with diverse
appearances and flexible motions. Code, demo, video and visualization are
available at: https://disco-dance.github.io/.
- Abstract(参考訳): 生成AIはコンピュータビジョン、特にテキスト駆動画像/ビデオ合成(T2I/T2V)において大きな進歩を遂げている。
顕著な進歩にもかかわらず、現実的なダンス生成のような人間中心のコンテンツ合成は依然として困難である。
現在の手法は主に人間の動きの伝達に特化しており、様々なポーズや複雑な人間の詳細を一般化する必要がある現実世界のダンスシナリオ(ソーシャルメディアダンスなど)に直面すると困難に遭遇する。
本稿では,人間の動き伝達の伝統的なパラダイムから脱却し,ソーシャルメディアにおける人間のダンスコンテンツ合成に重要な2つの特徴を強調する。
(i) 一般化可能性:モデルは、一般的な人間の視点を超えて、見えない人間の主題、背景及びポーズを一般化できなければならない。
(二)構成性:見知らぬ被写体、背景、異なるソースからのポーズをシームレスに構成すること。
これらの課題に対処するために,ダンス合成の構成性を改善するために,不連続制御を備えた新しいモデルアーキテクチャであるdiscoと,知覚不能な人間の一般化性を改善するための効果的な人間属性事前学習を含むdiscoを紹介する。
大規模な質的および定量的な結果は、DisCoが様々な外観と柔軟な動きを持つ高品質な人間のダンス画像とビデオを生成することを実証している。
コード、デモ、ビデオ、ビジュアライゼーションはhttps://disco-dance.github.io/。
関連論文リスト
- Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Adversarial Attention for Human Motion Synthesis [3.9378507882929563]
本稿では,エンド・ツー・エンドトレーニングを用いた注意型確率的深層対角モデルの適用により,人間の動作合成を制御可能な新しい手法を提案する。
我々は, 対角的注意力を用いて, 短距離地平線と短距離地平線の両面に人工的な人間の動きを生成できることを実証した。
論文 参考訳(メタデータ) (2022-04-25T16:12:42Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。