論文の概要: Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
- arxiv url: http://arxiv.org/abs/2512.08765v1
- Date: Tue, 09 Dec 2025 16:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.042762
- Title: Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
- Title(参考訳): Wan-Move:潜在軌道誘導によるモーションコントロール可能なビデオ生成
- Authors: Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang,
- Abstract要約: Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。
私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。
Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
- 参考スコア(独自算出の注目度): 107.25252623824296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Wan-Move, a simple and scalable framework that brings motion control to video generative models. Existing motion-controllable methods typically suffer from coarse control granularity and limited scalability, leaving their outputs insufficient for practical use. We narrow this gap by achieving precise and high-quality motion control. Our core idea is to directly make the original condition features motion-aware for guiding video synthesis. To this end, we first represent object motions with dense point trajectories, allowing fine-grained control over the scene. We then project these trajectories into latent space and propagate the first frame's features along each trajectory, producing an aligned spatiotemporal feature map that tells how each scene element should move. This feature map serves as the updated latent condition, which is naturally integrated into the off-the-shelf image-to-video model, e.g., Wan-I2V-14B, as motion guidance without any architecture change. It removes the need for auxiliary motion encoders and makes fine-tuning base models easily scalable. Through scaled training, Wan-Move generates 5-second, 480p videos whose motion controllability rivals Kling 1.5 Pro's commercial Motion Brush, as indicated by user studies. To support comprehensive evaluation, we further design MoveBench, a rigorously curated benchmark featuring diverse content categories and hybrid-verified annotations. It is distinguished by larger data volume, longer video durations, and high-quality motion annotations. Extensive experiments on MoveBench and the public dataset consistently show Wan-Move's superior motion quality. Code, models, and benchmark data are made publicly available.
- Abstract(参考訳): We present Wan-Move, a simple and scalable framework that bring motion control to video generative model。
既存のモーションコントロール可能な手法は通常、粗い制御の粒度と限られたスケーラビリティに悩まされ、実際の使用には出力が不十分である。
高精度かつ高品質なモーションコントロールを実現することで、このギャップを狭めます。
私たちの中核となる考え方は、ビデオ合成を導くための動き認識機能を直接備えることです。
この目的のために、我々はまず、高密度な点軌跡を持つ物体の動きを表現し、シーンのきめ細かい制御を可能にする。
次に、これらの軌跡を潜在空間に投影し、各軌跡に沿って第1フレームの特徴を伝播し、各シーン要素の移動方法を示す時空間的特徴写像を生成する。
この特徴マップは更新された潜伏状態として機能し、自然にオフザシェルフイメージ・トゥ・ビデオモデル(例えばWan-I2V-14B)に統合され、アーキテクチャの変更なしにモーションガイダンスとして機能する。
補助的なモーションエンコーダの必要性を排除し、微調整ベースモデルをスケーラブルにすることができる。
Wan-Moveは大規模なトレーニングを通じて、5秒、480pのビデオを生成し、そのモーションコントロール性はKling 1.5 Proの商用Motion Brushに匹敵する。
包括的評価を支援するため,多様なコンテンツカテゴリとハイブリッド検証アノテーションを備えた厳密なベンチマークであるMoveBenchを設計する。
これは、より大きなデータボリューム、長いビデオの長さ、高品質なモーションアノテーションによって区別される。
MoveBenchと公開データセットに関する大規模な実験は、一貫してワン・モーブの優れた運動品質を示している。
コード、モデル、ベンチマークデータは公開されています。
関連論文リスト
- Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、効率的な2段階ビデオモーション転送フレームワークである。
本稿では,空間的外観と時間的動き処理のための注意構造を分離する空間的時間的疎結合LoRAを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
論文 参考訳(メタデータ) (2025-06-05T16:18:32Z) - ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文 参考訳(メタデータ) (2025-05-26T17:59:03Z) - MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation [55.238542326124545]
静止画像に画像間(I2V)生成を条件付け、動き強度を付加的な制御信号として最近強化した。
これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。
本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
論文 参考訳(メタデータ) (2024-12-08T08:12:37Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。