論文の概要: RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space
- arxiv url: http://arxiv.org/abs/2508.08588v1
- Date: Tue, 12 Aug 2025 03:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.280773
- Title: RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space
- Title(参考訳): RealisMotion:世界空間における人間のモーションコントロールとビデオ生成の分解
- Authors: Jingyun Liang, Jingkai Zhou, Shikai Li, Chenjie Cao, Lei Sun, Yichen Qian, Weihua Chen, Fan Wang,
- Abstract要約: 本研究では,外見,背景,軌道からの動作を明示的に分離する枠組みを提案する。
本手法は,要素ワイド制御性と全映像品質の両面において,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 28.70181587812075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating human videos with realistic and controllable motions is a challenging task. While existing methods can generate visually compelling videos, they lack separate control over four key video elements: foreground subject, background video, human trajectory and action patterns. In this paper, we propose a decomposed human motion control and video generation framework that explicitly decouples motion from appearance, subject from background, and action from trajectory, enabling flexible mix-and-match composition of these elements. Concretely, we first build a ground-aware 3D world coordinate system and perform motion editing directly in the 3D space. Trajectory control is implemented by unprojecting edited 2D trajectories into 3D with focal-length calibration and coordinate transformation, followed by speed alignment and orientation adjustment; actions are supplied by a motion bank or generated via text-to-motion methods. Then, based on modern text-to-video diffusion transformer models, we inject the subject as tokens for full attention, concatenate the background along the channel dimension, and add motion (trajectory and action) control signals by addition. Such a design opens up the possibility for us to generate realistic videos of anyone doing anything anywhere. Extensive experiments on benchmark datasets and real-world cases demonstrate that our method achieves state-of-the-art performance on both element-wise controllability and overall video quality.
- Abstract(参考訳): リアルでコントロール可能なモーションで人間のビデオを生成することは、難しい課題だ。
既存の方法は視覚的に魅力的なビデオを生成することができるが、前景の主題、背景の動画、人間の軌道、行動パターンの4つの重要なビデオ要素を別々に制御することができない。
本稿では,外見,背景,軌跡からの動作を明示的に分離し,これらの要素のフレキシブル・ミックス・アンド・マッチ合成を可能にする,人間の動作制御と映像生成の枠組みを提案する。
具体的には,まず地上認識型3次元世界座標系を構築し,3次元空間で直接モーション編集を行う。
軌道制御は、編集された2次元軌跡を焦点長のキャリブレーションと座標変換で3次元に投影し、次に速度調整と方向調整を行い、動作はモーションバンクによって供給されるか、テキスト・トゥ・モーション方式で生成される。
そして,現代のテキスト・ビデオ拡散トランスフォーマーモデルに基づいて,対象物をトークンとして注入し,チャネル次元に沿って背景を結合し,動き(軌跡・動作)制御信号を付加する。
このようなデザインによって、どこにいてもリアルなビデオが作れるようになります。
ベンチマーク・データセットと実世界の事例に対する大規模な実験により,本手法は,要素ワイド制御性と全映像品質の両面において,最先端の性能を達成できることを示した。
関連論文リスト
- ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。
I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文 参考訳(メタデータ) (2025-02-06T18:41:04Z) - Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation [21.87745390965703]
本稿では3D対応モーション表現を導入し,詳細な協調動作制御を実現するために,Perception-as-Controlと呼ばれる画像アニメーションフレームワークを提案する。
具体的には、参照画像から3D対応の動作表現を構築し、解釈されたユーザ命令に基づいて操作し、異なる視点から知覚する。
本フレームワークは,動作制御信号として知覚結果を活用することで,様々な動作関連ビデオ合成タスクを統一的かつ柔軟な方法でサポートできるようにする。
論文 参考訳(メタデータ) (2025-01-09T07:23:48Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。