論文の概要: TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
- arxiv url: http://arxiv.org/abs/2504.08181v1
- Date: Fri, 11 Apr 2025 00:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:02.911674
- Title: TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
- Title(参考訳): TokenMotion:人間中心のビデオ生成のためのToken Disentanglementによる非結合動作制御
- Authors: Ruineng Li, Daitao Xing, Huiming Sun, Yuanzhou Ha, Jinglin Shen, Chiuman Ho,
- Abstract要約: TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
- 参考スコア(独自算出の注目度): 7.900728371180723
- License:
- Abstract: Human-centric motion control in video generation remains a critical challenge, particularly when jointly controlling camera movements and human poses in scenarios like the iconic Grammy Glambot moment. While recent video diffusion models have made significant progress, existing approaches struggle with limited motion representations and inadequate integration of camera and human motion controls. In this work, we present TokenMotion, the first DiT-based video diffusion framework that enables fine-grained control over camera motion, human motion, and their joint interaction. We represent camera trajectories and human poses as spatio-temporal tokens to enable local control granularity. Our approach introduces a unified modeling framework utilizing a decouple-and-fuse strategy, bridged by a human-aware dynamic mask that effectively handles the spatially-and-temporally varying nature of combined motion signals. Through extensive experiments, we demonstrate TokenMotion's effectiveness across both text-to-video and image-to-video paradigms, consistently outperforming current state-of-the-art methods in human-centric motion control tasks. Our work represents a significant advancement in controllable video generation, with particular relevance for creative production applications.
- Abstract(参考訳): ビデオ生成における人間中心のモーションコントロールは、特に象徴的なグラミーグラボの瞬間のようなシナリオにおいて、カメラの動きと人間のポーズを共同で制御する場合において、依然として重要な課題である。
最近のビデオ拡散モデルは大きな進歩を遂げているが、既存のアプローチでは、限られたモーション表現と、カメラと人間のモーションコントロールの不十分な統合に苦慮している。
本研究では、カメラの動き、人間の動き、およびそれらの関節の相互作用のきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークであるTokenMotionを紹介する。
我々は、カメラの軌跡と人間のポーズを時空間トークンとして表現し、局所的な制御の粒度化を可能にする。
本手法では,複合動作信号の空間的・時間的特性を効果的に扱える人間認識型動的マスクによって橋渡しされた,分離・融合戦略を利用した統合モデリングフレームワークを提案する。
広範にわたる実験を通じて、TokenMotionはテキスト・ツー・ビデオ・パラダイムと画像・ビデオのパラダイムにまたがって有効性を示し、人間中心のモーションコントロールタスクにおける最先端の手法を一貫して上回っている。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
関連論文リスト
- Strong and Controllable 3D Motion Generation [0.0]
本研究では,従来のテキスト・ツー・モーション生成法と比較して,人間の動作の高精度な関節レベル制御を可能にするモーションコントロールネットを提案する。
これらのコントリビューションは、テキスト・トゥ・モーション生成の大幅な進歩を示し、現実世界のアプリケーションに近づいた。
論文 参考訳(メタデータ) (2025-01-30T20:06:30Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。