論文の概要: ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation
- arxiv url: http://arxiv.org/abs/2505.05589v1
- Date: Thu, 08 May 2025 18:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.048339
- Title: ReactDance: Progressive-Granular Representation for Long-Term Coherent Reactive Dance Generation
- Title(参考訳): ReactDance: 長期的なコヒーレントなリアクティブダンス生成のためのプログレッシブ・グラニュラー表現
- Authors: Jingzhong Lin, Yuanyuan Qi, Xinru Li, Wenxuan Huang, Xiangfeng Xu, Bangyan Li, Xuejiao Wang, Gaoqi He,
- Abstract要約: レスポンシブ・ダンス・ジェネレーション (RDG) は、ダンサーと音楽の誘導を前提とした従者の動きを生成する。
長期間のコヒーレンスとマルチスケール制御性を備えた高忠実度RDGのための新しい拡散型フレームワークであるReactDanceを提案する。
- 参考スコア(独自算出の注目度): 2.1920014462753064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reactive dance generation (RDG) produces follower movements conditioned on guiding dancer and music while ensuring spatial coordination and temporal coherence. However, existing methods overemphasize global constraints and optimization, overlooking local information, such as fine-grained spatial interactions and localized temporal context. Therefore, we present ReactDance, a novel diffusion-based framework for high-fidelity RDG with long-term coherence and multi-scale controllability. Unlike existing methods that struggle with interaction fidelity, synchronization, and temporal consistency in duet synthesis, our approach introduces two key innovations: 1)Group Residual Finite Scalar Quantization (GRFSQ), a multi-scale disentangled motion representation that captures interaction semantics from coarse body rhythms to fine-grained joint dynamics, and 2)Blockwise Local Context (BLC), a sampling strategy eliminating error accumulation in long sequence generation via local block causal masking and periodic positional encoding. Built on the decoupled multi-scale GRFSQ representation, we implement a diffusion model withLayer-Decoupled Classifier-free Guidance (LDCFG), allowing granular control over motion semantics across scales. Extensive experiments on standard benchmarks demonstrate that ReactDance surpasses existing methods, achieving state-of-the-art performance.
- Abstract(参考訳): レスポンシブダンス生成(RDG)は、空間的調整と時間的コヒーレンスを確保しつつ、ダンサーと音楽の誘導に条件付けられた従者の動きを生成する。
しかし、既存の手法では、局所的な情報、例えばきめ細かい空間的相互作用や局所化された時間的文脈など、グローバルな制約や最適化に重きを置いている。
そこで我々は,長期間のコヒーレンスとマルチスケール制御性を備えた高忠実度RDGのための新しい拡散ベースフレームワークReactDanceを提案する。
1)局所ブロック因果マスクと周期的位置符号化による長周期生成における誤差の蓄積を除去するサンプリング戦略であるBLC(Blockwise Local Context)と、粗い体リズムからきめ細かな関節力学への相互作用のセマンティクスをキャプチャするマルチスケールのアンタングル運動表現であるGRFSQ(Group Residual Finite Scalar Quantization)を導入する。
分離されたマルチスケールGRFSQ表現に基づいて,Layer-Decoupled Classifier-free Guidance (LDCFG) を用いた拡散モデルを実装した。
標準ベンチマークに関する大規模な実験は、ReactDanceが既存のメソッドを超え、最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- EHGCN: Hierarchical Euclidean-Hyperbolic Fusion via Motion-Aware GCN for Hybrid Event Stream Perception [44.8109315513885]
イベントカメラは、知覚タスクのための高速なイベントストリームを出力する。
ユークリッド空間と双曲空間の両方においてイベントストリームを知覚するためのEHGCNという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-23T11:01:03Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-01-31T05:34:59Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。