論文の概要: LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model
- arxiv url: http://arxiv.org/abs/2308.11945v1
- Date: Wed, 23 Aug 2023 06:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:26:41.921663
- Title: LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model
- Title(参考訳): LongDanceDiff:条件付き拡散モデルによる長期ダンス生成
- Authors: Siqi Yang, Zejun Yang, Zhisheng Wang
- Abstract要約: LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
- 参考スコア(独自算出の注目度): 3.036230795326545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dancing with music is always an essential human art form to express emotion.
Due to the high temporal-spacial complexity, long-term 3D realist dance
generation synchronized with music is challenging. Existing methods suffer from
the freezing problem when generating long-term dances due to error accumulation
and training-inference discrepancy. To address this, we design a conditional
diffusion model, LongDanceDiff, for this sequence-to-sequence long-term dance
generation, addressing the challenges of temporal coherency and spatial
constraint. LongDanceDiff contains a transformer-based diffusion model, where
the input is a concatenation of music, past motions, and noised future motions.
This partial noising strategy leverages the full-attention mechanism and learns
the dependencies among music and past motions. To enhance the diversity of
generated dance motions and mitigate the freezing problem, we introduce a
mutual information minimization objective that regularizes the dependency
between past and future motions. We also address common visual quality issues
in dance generation, such as foot sliding and unsmooth motion, by incorporating
spatial constraints through a Global-Trajectory Modulation (GTM) layer and
motion perceptual losses, thereby improving the smoothness and naturalness of
motion generation. Extensive experiments demonstrate a significant improvement
in our approach over the existing state-of-the-art methods. We plan to release
our codes and models soon.
- Abstract(参考訳): 音楽で踊ることは感情を表現するのに不可欠な人間の芸術形式である。
時間空間の複雑さが高いため、音楽と同期した長期3次元リアリストダンス生成は困難である。
既存の手法は、誤り蓄積とトレーニング推論の相違により長期ダンスを生成する際に、凍結問題に悩まされる。
そこで我々は,時間的コヒーレンシと空間的制約の課題に対処するため,このシーケンスからシーケンスまでの長期ダンス生成のための条件拡散モデルLongDanceDiffを設計する。
LongDanceDiffにはトランスフォーマーベースの拡散モデルがあり、入力は音楽、過去の動き、ノイズのある将来の動きの結合である。
この部分的発声戦略はフルアテンション機構を活用し、音楽と過去の動きの間の依存関係を学習する。
生成したダンスの動きの多様性を高め、凍結問題を緩和するために、過去と将来の動き間の依存性を規則化する相互情報最小化目標を導入する。
また,GTM(Global-Trajectory Modulation)層を通した空間制約と運動知覚損失を取り入れることで,フットスライディングやアンスムースモーションなどのダンス生成における一般的な視覚的品質問題にも対処し,運動生成の滑らかさと自然性を向上させる。
広範な実験により,既存の最先端手法に対するアプローチの大幅な改善が示された。
私たちはまもなくコードとモデルをリリースする予定です。
関連論文リスト
- Scalable Group Choreography via Variational Phase Manifold Learning [8.504657927912076]
生成多様体の学習におけるグループダンス生成のための位相ベース変分生成モデルを提案する。
提案手法は,高忠実度群舞踊動作を実現し,無制限なダンサー生成を可能にする。
論文 参考訳(メタデータ) (2024-07-26T16:02:37Z) - Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives [50.37531720524434]
与えられた音楽に条件付けされた非常に長いダンスシーケンスを生成することができるネットワークであるLodgeを提案する。
提案手法は,グローバルな振付パターンと局所的な動きの質,表現性とのバランスを保ちながら,非常に長いダンスシーケンスを並列に生成することができる。
論文 参考訳(メタデータ) (2024-03-15T17:59:33Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Dance Revolution: Long-Term Dance Generation with Music via Curriculum
Learning [55.854205371307884]
音楽条件付きダンス生成をシーケンス・ツー・シーケンスの学習問題として定式化する。
本稿では,長動き列生成における自己回帰モデルの誤り蓄積を軽減するための新しいカリキュラム学習戦略を提案する。
提案手法は,自動計測と人的評価において,既存の最先端技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-06-11T00:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。