論文の概要: MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
- arxiv url: http://arxiv.org/abs/2503.16421v1
- Date: Thu, 20 Mar 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:03.722863
- Title: MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance
- Title(参考訳): MagicMotion:Dense-to-Sparse Trajectory Guidanceによる制御可能なビデオ生成
- Authors: Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu,
- Abstract要約: トラジェクティブ制御可能なビデオ生成のための画像からビデオ生成フレームワークであるMagicMotionを紹介する。
MagicMotionは、オブジェクトの一貫性と視覚的品質を維持しながら、定義された軌道に沿ってオブジェクトを認識できる。
我々は、大規模なトラジェクトリ制御ビデオデータセットであるMagicDataと、アノテーションとフィルタリングのための自動パイプラインを提示する。
- 参考スコア(独自算出の注目度): 46.92591065065018
- License:
- Abstract: Recent advances in video generation have led to remarkable improvements in visual quality and temporal coherence. Upon this, trajectory-controllable video generation has emerged to enable precise object motion control through explicitly defined spatial paths. However, existing methods struggle with complex object movements and multi-object motion control, resulting in imprecise trajectory adherence, poor object consistency, and compromised visual quality. Furthermore, these methods only support trajectory control in a single format, limiting their applicability in diverse scenarios. Additionally, there is no publicly available dataset or benchmark specifically tailored for trajectory-controllable video generation, hindering robust training and systematic evaluation. To address these challenges, we introduce MagicMotion, a novel image-to-video generation framework that enables trajectory control through three levels of conditions from dense to sparse: masks, bounding boxes, and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly animates objects along defined trajectories while maintaining object consistency and visual quality. Furthermore, we present MagicData, a large-scale trajectory-controlled video dataset, along with an automated pipeline for annotation and filtering. We also introduce MagicBench, a comprehensive benchmark that assesses both video quality and trajectory control accuracy across different numbers of objects. Extensive experiments demonstrate that MagicMotion outperforms previous methods across various metrics. Our project page are publicly available at https://quanhaol.github.io/magicmotion-site.
- Abstract(参考訳): 近年のビデオ生成の進歩は、視覚的品質と時間的コヒーレンスを著しく改善した。
これにより、明示的に定義された空間経路を通して正確な物体の動き制御を可能にするために、軌道制御可能なビデオ生成が出現した。
しかし、既存の手法は複雑な物体の動きと多目的運動制御に苦しむため、不正確な軌道の定着、オブジェクトの整合性の低下、視覚的品質の損なわれる。
さらに、これらの手法は1つのフォーマットでの軌道制御のみをサポートし、様々なシナリオで適用性を制限する。
さらに、トラジェクトリ制御可能なビデオ生成に適したデータセットやベンチマークは公開されておらず、堅牢なトレーニングや体系的な評価を妨げる。
これらの課題に対処するために,マスク,バウンディングボックス,スパースボックスという3段階の条件下でのトラジェクトリ制御を可能にする,新しいイメージ・ビデオ生成フレームワークであるMagicMotionを紹介した。
MagicMotionは、入力画像とトラジェクトリが与えられたとき、オブジェクトの一貫性と視覚的品質を維持しながら、定義されたトラジェクトリに沿ってオブジェクトをシームレスに分離する。
さらに、大規模なトラジェクトリ制御ビデオデータセットであるMagicDataと、アノテーションとフィルタリングのための自動パイプラインも紹介する。
MagicBenchも導入しています。これはビデオの品質とトラジェクトリ制御の精度をさまざまなオブジェクトにわたって評価する総合的なベンチマークです。
大規模な実験では、MagicMotionはさまざまなメトリクスで過去のメソッドよりも優れています。
私たちのプロジェクトページはhttps://quanhaol.github.io/magicmotion-site.comで公開されています。
関連論文リスト
- 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [33.62804888664707]
条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
また、時間的自己注意層にシームレスに統合されるように設計された効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
実験の結果,新しい手法はTrackAdapterによって強化され,FVD,FID,MCスコアなどの重要な指標における最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。