論文の概要: Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades
- arxiv url: http://arxiv.org/abs/2603.08028v1
- Date: Mon, 09 Mar 2026 07:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.619033
- Title: Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades
- Title(参考訳): テキスト・ツー・スケルトン・カスケードによる複雑な映像生成
- Authors: Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun,
- Abstract要約: 両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
- 参考スコア(独自算出の注目度): 32.12940211414945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating videos of complex human motions such as flips, cartwheels, and martial arts remains challenging for current video diffusion models. Text-only conditioning is temporally ambiguous for fine-grained motion control, while explicit pose-based controls, though effective, require users to provide complete skeleton sequences that are costly to produce for long and dynamic actions. We propose a two-stage cascaded framework that addresses both limitations. First, an autoregressive text-to-skeleton model generates 2D pose sequences from natural language descriptions by predicting each joint conditioned on previously generated poses. This design captures long-range temporal dependencies and inter-joint coordination required for complex motions. Second, a pose-conditioned video diffusion model synthesizes videos from a reference image and the generated skeleton sequence. It employs DINO-ALF (Adaptive Layer Fusion), a multi-level reference encoder that preserves appearance and clothing details under large pose changes and self-occlusions. To address the lack of publicly available datasets for complex human motion video generation, we introduce a Blender-based synthetic dataset containing 2,000 videos with diverse characters performing acrobatic and stunt-like motions. The dataset provides full control over appearance, motion, and environment. It fills an important gap because existing benchmarks significantly under-represent acrobatic motions while web-collected datasets raise copyright and privacy concerns. Experiments on our synthetic dataset and the Motion-X Fitness benchmark show that our text-to-skeleton model outperforms prior methods on FID, R-precision, and motion diversity. Our pose-to-video model also achieves the best results among all compared methods on VBench metrics for temporal consistency, motion smoothness, and subject preservation.
- Abstract(参考訳): フリップ、カートホイール、武道のような複雑な人間の動きのビデオを生成することは、現在のビデオ拡散モデルでは難しい。
テキストのみの条件付けは、微妙な動作制御には時間的に不明瞭であるが、明示的なポーズベースの制御は効果的ではあるが、ユーザーは長い動作と動的な動作のためにコストがかかる完全な骨格シーケンスを提供する必要がある。
両制約に対処する2段階のカスケードフレームワークを提案する。
まず, 自動回帰テキスト-スケルトンモデルを用いて, 先に生成したポーズに基づいて各関節条件を予測し, 自然言語記述から2次元ポーズ列を生成する。
この設計は、複雑な動きに必要な長距離時間依存性と結合間調整をキャプチャする。
次に、ポーズ条件付きビデオ拡散モデルが、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
DINO-ALF(Adaptive Layer Fusion、アダプティブ・レイヤ・フュージョン)は、大きなポーズ変更と自己隠蔽の下で外観と衣服の詳細を保存するマルチレベルリファレンス・エンコーダである。
複雑な人間のモーションビデオ生成のための公開データセットの欠如に対処するため,我々は,アクロバティックな動作やスタントのような動作を行う多彩なキャラクタを持つ2,000の動画を含むBlenderベースの合成データセットを紹介した。
データセットは外観、動き、環境を完全に制御する。
既存のベンチマークがアクロバティックな動きを著しく下回っているのに対して、Webで収集されたデータセットは著作権とプライバシーの懸念を高めているため、これは重要なギャップを埋める。
合成データセットとMotion-X Fitnessベンチマークの実験により、我々のテキスト-スケルトンモデルは、FID、R-精度、動きの多様性に関する先行手法よりも優れていることが示された。
ポーズ・トゥ・ビデオ・モデルは, 時間的一貫性, 動きの平滑性, 被写体保存性に関するVBench測定値について, 比較したすべての手法で最高の結果が得られる。
関連論文リスト
- EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - LatentMove: Towards Complex Human Movement Video Generation [35.83863053692456]
我々は、高ダイナミックな人間のアニメーションに特化して設計されたDiTベースのフレームワークであるLatentMoveを提示する。
アーキテクチャには条件制御ブランチと学習可能なフェイス/ボディトークンが組み込まれており、フレーム間のきめ細かい詳細や一貫性を保っている。
I2Vシステムのロバスト性を評価するために設計された多種多様で挑戦的な人間の動きを特徴付けるデータセットである複合Human-Videos(CHV)を紹介する。
論文 参考訳(メタデータ) (2025-05-28T07:10:49Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。