Fugu-MT 論文翻訳(概要): DisCo: Disentangled Control for Realistic Human Dance Generation

論文の概要: DisCo: Disentangled Control for Realistic Human Dance Generation

arxiv url: http://arxiv.org/abs/2307.00040v2
Date: Wed, 11 Oct 2023 10:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 08:19:48.115162
Title: DisCo: Disentangled Control for Realistic Human Dance Generation
Title（参考訳）: DisCo:リアルなダンス生成のための遠方制御
Authors: Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
Abstract要約: 本稿では,ダンス合成の合成性を改善するために,アンタングル制御を備えた新しいモデルアーキテクチャであるDisCoを紹介する。 DisCoは、さまざまな外観と柔軟な動きを備えた高品質な人間のダンス画像やビデオを生成することができる。
参考スコア（独自算出の注目度）: 130.58318610083958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI has made significant strides in computer vision, particularly in text-driven image/video synthesis (T2I/T2V). Despite the notable advancements, it remains challenging in human-centric content synthesis such as realistic dance generation. Current methodologies, primarily tailored for human motion transfer, encounter difficulties when confronted with real-world dance scenarios (e.g., social media dance) which require to generalize across a wide spectrum of poses and intricate human details. In this paper, we depart from the traditional paradigm of human motion transfer and emphasize two additional critical attributes for the synthesis of human dance content in social media contexts: (i) Generalizability: the model should be able to generalize beyond generic human viewpoints as well as unseen human subjects, backgrounds, and poses; (ii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources seamlessly. To address these challenges, we introduce DisCo, which includes a novel model architecture with disentangled control to improve the compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DisCo can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.
Abstract（参考訳）: 生成AIはコンピュータビジョン、特にテキスト駆動画像/ビデオ合成(T2I/T2V)において大きな進歩を遂げている。顕著な進歩にもかかわらず、現実的なダンス生成のような人間中心のコンテンツ合成は依然として困難である。現在の手法は主に人間の動きの伝達に特化しており、様々なポーズや複雑な人間の詳細を一般化する必要がある現実世界のダンスシナリオ(ソーシャルメディアダンスなど)に直面すると困難に遭遇する。本稿では,人間の動き伝達の伝統的なパラダイムから脱却し,ソーシャルメディアにおける人間のダンスコンテンツ合成に重要な2つの特徴を強調する。 (i) 一般化可能性:モデルは、一般的な人間の視点を超えて、見えない人間の主題、背景及びポーズを一般化できなければならない。 (二)構成性:見知らぬ被写体、背景、異なるソースからのポーズをシームレスに構成すること。これらの課題に対処するために,ダンス合成の構成性を改善するために,不連続制御を備えた新しいモデルアーキテクチャであるdiscoと,知覚不能な人間の一般化性を改善するための効果的な人間属性事前学習を含むdiscoを紹介する。大規模な質的および定量的な結果は、DisCoが様々な外観と柔軟な動きを持つ高品質な人間のダンス画像とビデオを生成することを実証している。コード、デモ、ビデオ、ビジュアライゼーションはhttps://disco-dance.github.io/。

関連論文リスト

Salsa as a Nonverbal Embodied Language -- The CoMPAS3D Dataset and Benchmarks [0.5937476291232802]
即興サルサダンスにおける最大かつ最も多様なモーションキャプチャーデータセットであるCoMPAS3Dを提案する。データセットには、初心者、中間、プロのスキルレベルにまたがる18人のダンサーによる3時間のリーダーフォロワーサルサダンスが含まれている。我々は,音声言語と対話処理における重要な問題を並列処理する合成人間の2つのベンチマークタスクについて,CoMPAS3Dを評価する。
論文参考訳（メタデータ） (2025-07-25T21:33:48Z)
Dyads: Artist-Centric, AI-Generated Dance Duets [6.67162793750123]
既存のAI生成ダンス手法は、主にソロダンスのパフォーマンスからモーションキャプチャーデータをトレーニングする。この研究は、ダンサーのペア間の複雑な相互作用をモデル化するAI手法を提案することによって、フィールドの両方のニーズに対処する。
論文参考訳（メタデータ） (2025-03-05T22:58:03Z)
Jointly Understand Your Command and Intention:Reciprocal Co-Evolution between Scene-Aware 3D Human Motion Synthesis and Analysis [80.50342609047091]
シーン認識型テキスト対人間合成は、同じテキスト記述から多様な屋内動作サンプルを生成する。そこで本研究では,テキスト駆動型シーン特異的なヒューマンモーション生成を3段階に分解するケースドジェネレーション戦略を提案する。我々は3次元シーンにおけるリアルな人間の動き合成と頑健な人間の動き解析を共同で改善する。
論文参考訳（メタデータ） (2025-03-01T06:56:58Z)
X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文参考訳（メタデータ） (2025-02-24T18:47:54Z)
Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-03-26T18:41:07Z)
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-24T10:44:16Z)
BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。 BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文参考訳（メタデータ） (2022-07-20T18:03:54Z)
Adversarial Attention for Human Motion Synthesis [3.9378507882929563]
本稿では,エンド・ツー・エンドトレーニングを用いた注意型確率的深層対角モデルの適用により,人間の動作合成を制御可能な新しい手法を提案する。我々は, 対角的注意力を用いて, 短距離地平線と短距離地平線の両面に人工的な人間の動きを生成できることを実証した。
論文参考訳（メタデータ） (2022-04-25T16:12:42Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)
Transflower: probabilistic autoregressive dance generation with multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文参考訳（メタデータ） (2021-06-25T20:14:28Z)
High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文参考訳（メタデータ） (2020-12-20T16:54:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。