論文の概要: Dance Your Latents: Consistent Dance Generation through Spatial-temporal
Subspace Attention Guided by Motion Flow
- arxiv url: http://arxiv.org/abs/2310.14780v1
- Date: Fri, 20 Oct 2023 12:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:59:42.031374
- Title: Dance Your Latents: Consistent Dance Generation through Spatial-temporal
Subspace Attention Guided by Motion Flow
- Title(参考訳): dance your latents: 動きの流れに導かれた空間的-時間的部分空間的注意を通した一貫したダンス生成
- Authors: Haipeng Fang, Zhihao Sun, Ziyao Huang, Fan Tang, Juan Cao, Sheng Tang
- Abstract要約: 本研究では,連続したダンスビデオを生成するために,ラテンダーが動きの流れに従ってコヒーレントに舞うためのフレームワークであるDance-Latentsを紹介する。
TikTokデータセットによる実験結果から,不規則に生成されたビデオの時間的一貫性が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 22.1733448870831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of generative AI has extended to the realm of Human Dance
Generation, demonstrating superior generative capacities. However, current
methods still exhibit deficiencies in achieving spatiotemporal consistency,
resulting in artifacts like ghosting, flickering, and incoherent motions. In
this paper, we present Dance-Your-Latents, a framework that makes latents dance
coherently following motion flow to generate consistent dance videos. Firstly,
considering that each constituent element moves within a confined space, we
introduce spatial-temporal subspace-attention blocks that decompose the global
space into a combination of regular subspaces and efficiently model the
spatiotemporal consistency within these subspaces. This module enables each
patch pay attention to adjacent areas, mitigating the excessive dispersion of
long-range attention. Furthermore, observing that body part's movement is
guided by pose control, we design motion flow guided subspace align & restore.
This method enables the attention to be computed on the irregular subspace
along the motion flow. Experimental results in TikTok dataset demonstrate that
our approach significantly enhances spatiotemporal consistency of the generated
videos.
- Abstract(参考訳): 生成AIの進歩は、人間のダンス生成の領域にまで広がり、優れた生成能力を示している。
しかし、現在の手法では時空間的一貫性が得られず、ゴースト、フリック、無矛盾な動きなどのアーティファクトが発生している。
本稿では,動きの流れに連動して踊り,一貫したダンスビデオを生成する枠組みであるdance-your-latentsを提案する。
まず,各構成要素が閉じ込められた空間内で動くことを考えると,大域空間を正規部分空間の組合せに分解し,これらの部分空間内の時空間の時空間一貫性を効率的にモデル化する空間時間的部分空間アテンションブロックを導入する。
このモジュールは、パッチが隣接領域に注意を払い、長距離の注意の過度な分散を緩和する。
さらに, 姿勢制御により身体の動作が誘導されるのを観察し, 運動流誘導サブスペースアライメントと復元を設計する。
この方法では、動きの流れに沿って不規則な部分空間上で注意を計算できる。
TikTokデータセットによる実験結果から,本手法は生成したビデオの時空間一貫性を著しく向上させることが示された。
関連論文リスト
- Lagrangian Motion Fields for Long-term Motion Generation [32.548139921363756]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives [50.37531720524434]
与えられた音楽に条件付けされた非常に長いダンスシーケンスを生成することができるネットワークであるLodgeを提案する。
提案手法は,グローバルな振付パターンと局所的な動きの質,表現性とのバランスを保ちながら,非常に長いダンスシーケンスを並列に生成することができる。
論文 参考訳(メタデータ) (2024-03-15T17:59:33Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - LongDanceDiff: Long-term Dance Generation with Conditional Diffusion
Model [3.036230795326545]
LongDanceDiffは、シーケンス・ツー・シーケンスの長期ダンス生成のための条件付き拡散モデルである。
時間的一貫性と空間的制約の課題に対処する。
また,フットスライディングやアンスムース動作など,ダンス生成における視覚的品質の問題にも対処する。
論文 参考訳(メタデータ) (2023-08-23T06:37:41Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。