論文の概要: LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model
- arxiv url: http://arxiv.org/abs/2308.11945v1
- Date: Wed, 23 Aug 2023 06:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:26:41.921663
- Title: LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model
- Title(参考訳): LongDanceDiff:条件付き拡散モデルによる長期ダンス生成
- Authors: Siqi Yang, Zejun Yang, Zhisheng Wang
- Abstract要約: LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
- 参考スコア(独自算出の注目度): 3.036230795326545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dancing with music is always an essential human art form to express emotion.
Due to the high temporal-spacial complexity, long-term 3D realist dance
generation synchronized with music is challenging. Existing methods suffer from
the freezing problem when generating long-term dances due to error accumulation
and training-inference discrepancy. To address this, we design a conditional
diffusion model, LongDanceDiff, for this sequence-to-sequence long-term dance
generation, addressing the challenges of temporal coherency and spatial
constraint. LongDanceDiff contains a transformer-based diffusion model, where
the input is a concatenation of music, past motions, and noised future motions.
This partial noising strategy leverages the full-attention mechanism and learns
the dependencies among music and past motions. To enhance the diversity of
generated dance motions and mitigate the freezing problem, we introduce a
mutual information minimization objective that regularizes the dependency
between past and future motions. We also address common visual quality issues
in dance generation, such as foot sliding and unsmooth motion, by incorporating
spatial constraints through a Global-Trajectory Modulation (GTM) layer and
motion perceptual losses, thereby improving the smoothness and naturalness of
motion generation. Extensive experiments demonstrate a significant improvement
in our approach over the existing state-of-the-art methods. We plan to release
our codes and models soon.
- Abstract(参考訳): 音楽で踊ることは感情を表現するのに不可欠な人間の芸術形式である。
時間空間の複雑さが高いため、音楽と同期した長期3次元リアリストダンス生成は困難である。
既存の手法は、誤り蓄積とトレーニング推論の相違により長期ダンスを生成する際に、凍結問題に悩まされる。
そこで我々は,時間的コヒーレンシと空間的制約の課題に対処するため,このシーケンスからシーケンスまでの長期ダンス生成のための条件拡散モデルLongDanceDiffを設計する。
LongDanceDiffにはトランスフォーマーベースの拡散モデルがあり、入力は音楽、過去の動き、ノイズのある将来の動きの結合である。
この部分的発声戦略はフルアテンション機構を活用し、音楽と過去の動きの間の依存関係を学習する。
生成したダンスの動きの多様性を高め、凍結問題を緩和するために、過去と将来の動き間の依存性を規則化する相互情報最小化目標を導入する。
また,GTM(Global-Trajectory Modulation)層を通した空間制約と運動知覚損失を取り入れることで,フットスライディングやアンスムースモーションなどのダンス生成における一般的な視覚的品質問題にも対処し,運動生成の滑らかさと自然性を向上させる。
広範な実験により,既存の最先端手法に対するアプローチの大幅な改善が示された。
私たちはまもなくコードとモデルをリリースする予定です。
関連論文リスト
Err
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。