論文の概要: DisCo: Disentangled Control for Realistic Human Dance Generation
- arxiv url: http://arxiv.org/abs/2307.00040v3
- Date: Thu, 4 Apr 2024 19:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:49:52.217875
- Title: DisCo: Disentangled Control for Realistic Human Dance Generation
- Title(参考訳): DisCo:リアル・ヒューマン・ダンス・ジェネレーションのためのアンタングル制御
- Authors: Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang,
- Abstract要約: ダンス合成の合成性を改善するために,不整合制御をもつ新しいモデルアーキテクチャであるdisCOを導入する。
DisCcは、さまざまな外観と柔軟な動きを持つ高品質な人間のダンス画像やビデオを生成することができる。
- 参考スコア(独自算出の注目度): 125.85046815185866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI has made significant strides in computer vision, particularly in text-driven image/video synthesis (T2I/T2V). Despite the notable advancements, it remains challenging in human-centric content synthesis such as realistic dance generation. Current methodologies, primarily tailored for human motion transfer, encounter difficulties when confronted with real-world dance scenarios (e.g., social media dance), which require to generalize across a wide spectrum of poses and intricate human details. In this paper, we depart from the traditional paradigm of human motion transfer and emphasize two additional critical attributes for the synthesis of human dance content in social media contexts: (i) Generalizability: the model should be able to generalize beyond generic human viewpoints as well as unseen human subjects, backgrounds, and poses; (ii) Compositionality: it should allow for the seamless composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce DISCO, which includes a novel model architecture with disentangled control to improve the compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DisCc can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code is available at https://disco-dance.github.io/.
- Abstract(参考訳): 生成AIは、特にテキスト駆動画像/ビデオ合成(T2I/T2V)において、コンピュータビジョンにおいて大きな進歩を遂げている。
顕著な進歩にもかかわらず、現実的なダンス生成のような人間中心のコンテンツ合成は依然として困難である。
現在の手法は、人間の動きの伝達に特化しており、現実世界のダンスシナリオ(例えばソーシャルメディアダンス)に直面すると困難に遭遇する。
本稿では,人間の動き伝達の伝統的なパラダイムから脱却し,ソーシャルメディアにおける人間のダンスコンテンツ合成における2つの重要な特徴を強調する。
一 一般化可能性 モデルは、一般的な人間の視点を超えて、見知らぬ人間の主題、背景及びポーズを一般化することができるべきである。
(二 構成性:見知らぬ被写体、背景及び異なるソースからのポーズのシームレスな構成を可能にすること。
これらの課題に対処するために、ダンス合成の合成性を改善するためにアンタングル制御を備えた新しいモデルアーキテクチャと、目に見えない人間により良い一般化性を与える効果的な人的属性事前学習を含むdisCOを導入する。
広範に質的かつ定量的な結果は、DisCcが様々な外観と柔軟な動きを持つ高品質な人間のダンスイメージとビデオを生成することを実証している。
コードはhttps://disco-dance.github.io/で公開されている。
関連論文リスト
- Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Adversarial Attention for Human Motion Synthesis [3.9378507882929563]
本稿では,エンド・ツー・エンドトレーニングを用いた注意型確率的深層対角モデルの適用により,人間の動作合成を制御可能な新しい手法を提案する。
我々は, 対角的注意力を用いて, 短距離地平線と短距離地平線の両面に人工的な人間の動きを生成できることを実証した。
論文 参考訳(メタデータ) (2022-04-25T16:12:42Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。