論文の概要: DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2505.18078v1
- Date: Fri, 23 May 2025 16:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.223004
- Title: DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation
- Title(参考訳): DanceTogether! アイデンティティ保存型多人数対話型ビデオ生成
- Authors: Junhao Chen, Mingjin Chen, Jianjin Xu, Xiang Li, Junting Dong, Mingze Sun, Puhua Jiang, Hongxiang Li, Yuhang Yang, Hao Zhao, Xiaoxiao Long, Ruqi Huang,
- Abstract要約: DanceTogetherは、単一の参照画像と独立したポーズマスクストリームを、長くてリアルなビデオに変える。
MaskPoseAdapterは"誰が"と"どのように"をデノイングステップ毎にバインドする。
TogetherVideoBenchでは、DanceTogetherは先行の芸術をかなりの差で上回っている。
- 参考スコア(独自算出の注目度): 15.022584573325572
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Controllable video generation (CVG) has advanced rapidly, yet current systems falter when more than one actor must move, interact, and exchange positions under noisy control signals. We address this gap with DanceTogether, the first end-to-end diffusion framework that turns a single reference image plus independent pose-mask streams into long, photorealistic videos while strictly preserving every identity. A novel MaskPoseAdapter binds "who" and "how" at every denoising step by fusing robust tracking masks with semantically rich-but noisy-pose heat-maps, eliminating the identity drift and appearance bleeding that plague frame-wise pipelines. To train and evaluate at scale, we introduce (i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii) HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a significant margin. Moreover, we show that a one-hour fine-tune yields convincing human-robot videos, underscoring broad generalization to embodied-AI and HRI tasks. Extensive ablations confirm that persistent identity-action binding is critical to these gains. Together, our model, datasets, and benchmark lift CVG from single-subject choreography to compositionally controllable, multi-actor interaction, opening new avenues for digital production, simulation, and embodied intelligence. Our video demos and code are available at https://DanceTog.github.io/.
- Abstract(参考訳): 制御可能なビデオ生成(CVG)は急速に進歩しているが、複数のアクターがノイズの多い制御信号の下で位置を移動し、対話し、交換する必要がある場合、現在のシステムは不安定である。
DanceTogetherは、単一の参照画像と独立したポーズマスクストリームを、すべてのアイデンティティを厳格に保存しながら、長いフォトリアリスティックなビデオに変換する最初のエンドツーエンド拡散フレームワークです。
MaskPoseAdapterは、意味的にリッチだがノイズの多い熱マップで頑丈な追跡マスクを融合させ、フレームワイドパイプラインを悩ませるアイデンティティのドリフトと外観の出血をなくすことによって、各段階で「誰」と「どのように」を結合させる。
大規模に訓練し,評価するために,紹介する
(i)PairFS-4K、7000以上のIDを持つ26時間のデュアルスカッター映像。
二 高速クロスドメイン転送のための1時間ヒューマノイド・ロボット相互作用セットHumanRob-300及び
(iii) TogetherVideoBenchはダンス、ボクシング、レスリング、ヨガ、フィギュアスケートを対象とするDanceTogEval-100テストスイートを中心とした3トラックベンチマークである。
TogetherVideoBenchでは、DanceTogetherは先行の芸術をかなりの差で上回っている。
さらに,1時間のファインチューンは人間ロボットのビデオに説得力を与え,AIタスクやHRIタスクへの広範な一般化を裏付けることを示す。
広範囲にわたるアブリケーションは、永続的なアイデンティティ-アクション結合がこれらの利得に重要であることを証明している。
モデル,データセット,ベンチマークリフトCVGを単一対象コレオグラフィーから合成制御可能なマルチアクターインタラクションに移行し,デジタル生産,シミュレーション,具体化インテリジェンスのための新たな道を開く。
私たちのビデオデモとコードはhttps://DanceTog.github.io/.com/で公開されています。
関連論文リスト
- Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。
我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。
Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文 参考訳(メタデータ) (2025-03-10T06:04:31Z) - X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。
単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文 参考訳(メタデータ) (2025-02-24T18:47:54Z) - JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。
本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。
第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-11-14T06:13:05Z) - DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。