論文の概要: MotionPro: A Precise Motion Controller for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.20287v1
- Date: Mon, 26 May 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.449496
- Title: MotionPro: A Precise Motion Controller for Image-to-Video Generation
- Title(参考訳): MotionPro: 映像・映像生成のための精密モーションコントローラ
- Authors: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei,
- Abstract要約: 我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
- 参考スコア(独自算出の注目度): 108.63100943070592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.
- Abstract(参考訳): インタラクティブなモーションコントロールによるアニメーション画像は、画像間動画(I2V)生成で人気を博している。
現代のアプローチは、運動領域を明確に定義せずに運動軌跡を条件として拡張するために、大ガウスのカーネルに依存しており、粗い動き制御と、物体やカメラの動きを歪ませることができない。
これらを緩和するために、我々は、領域的な軌跡と動きマスクを巧妙に活用して、微粒な動き合成を規制し、目標動きカテゴリ(オブジェクトまたはカメラの移動)を識別する、精密なモーションコントローラであるMotionProを提案する。
技術的には、MotionProはまず、トラッキングモデルを介して各トレーニングビデオのフローマップを推定し、その後、領域的な軌跡をサンプリングして推論シナリオをシミュレートする。
ガウス核を流れる流れを拡大する代わりに、我々は局所領域内の軌道を直接利用することで、より精密な制御を可能にし、よりきめ細かい運動を効果的に特徴づける。
運動マスクは、予測フローマップから同時に導出され、運動領域の全体運動ダイナミクスを捉える。
自然なモーションコントロールを追求するために、MotionProは、機能変調を通じて、領域的な軌道とモーションマスクの両方を組み込むことで、ビデオのデノナイジングをさらに強化する。
より顕著なことに、細粒度とオブジェクトレベルのI2Vモーション制御の両方を評価するために、1.1Kのユーザ・アノテートされたイメージ・トラジェクトリ・ペアを持つMC-Benchというベンチマークを慎重に構築する。
WebVid-10MとMC-Benchで行った大規模な実験は、MotionProの有効性を実証している。
より詳細な結果については、プロジェクトページを参照してください。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation [55.238542326124545]
静止画像に画像間(I2V)生成を条件付け、動き強度を付加的な制御信号として最近強化した。
これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。
本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
論文 参考訳(メタデータ) (2024-12-08T08:12:37Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。