論文の概要: Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling
- arxiv url: http://arxiv.org/abs/2401.15977v2
- Date: Wed, 31 Jan 2024 07:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:21:12.131108
- Title: Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling
- Title(参考訳): motion-i2v : 明示的な動きモデリングによる映像から映像への一貫性と制御性
- Authors: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi
Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai,
Hongsheng Li
- Abstract要約: Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
- 参考スコア(独自算出の注目度): 62.19142543520805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Motion-I2V, a novel framework for consistent and controllable
image-to-video generation (I2V). In contrast to previous methods that directly
learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into
two stages with explicit motion modeling. For the first stage, we propose a
diffusion-based motion field predictor, which focuses on deducing the
trajectories of the reference image's pixels. For the second stage, we propose
motion-augmented temporal attention to enhance the limited 1-D temporal
attention in video latent diffusion models. This module can effectively
propagate reference image's feature to synthesized frames with the guidance of
predicted trajectories from the first stage. Compared with existing methods,
Motion-I2V can generate more consistent videos even at the presence of large
motion and viewpoint variation. By training a sparse trajectory ControlNet for
the first stage, Motion-I2V can support users to precisely control motion
trajectories and motion regions with sparse trajectory and region annotations.
This offers more controllability of the I2V process than solely relying on
textual instructions. Additionally, Motion-I2V's second stage naturally
supports zero-shot video-to-video translation. Both qualitative and
quantitative comparisons demonstrate the advantages of Motion-I2V over prior
approaches in consistent and controllable image-to-video generation. Please see
our project page at https://xiaoyushi97.github.io/Motion-I2V/.
- Abstract(参考訳): motion-i2vは,一貫性と制御性を備えた映像対ビデオ生成(i2v)のための新しいフレームワークである。
複雑な画像間マッピングを直接学習する従来の手法とは対照的に、Motion-I2VはI2Vを明示的なモーションモデリングで2段階に分解する。
第1段階では、参照画像の画素の軌跡を推定することに焦点を当てた拡散に基づく動き場予測器を提案する。
第2段階では,ビデオ潜伏拡散モデルにおける制限された1次元の時間的注意力を高めるために,時間的注意動作を提案する。
本モジュールは、第1段階からの予測軌道の誘導により、参照画像の特徴を合成フレームに効果的に伝達することができる。
既存の手法と比較して、Motion-I2Vは大きな動きや視点の変化があっても、より一貫したビデオを生成することができる。
スパース軌道制御ネットを第1段に訓練することにより、motion-i2vは、スパース軌道と領域アノテーションにより、ユーザの動き軌跡や動き領域を正確に制御できる。
これにより、テキスト命令のみに依存するよりも、I2Vプロセスの制御性が向上する。
さらに、Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの翻訳もサポートしている。
定性的かつ定量的な比較は、一貫した制御可能な画像-映像生成における従来のアプローチよりもMotion-I2Vの利点を示している。
プロジェクトページはhttps://xiaoyushi97.github.io/Motion-I2V/でご覧ください。
関連論文リスト
- Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [39.80627779006717]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。
本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:08:18Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Differential Motion Evolution for Fine-Grained Motion Deformation in
Unsupervised Image Animation [41.85199775016731]
エンドツーエンドの非教師ありモーショントランスファーフレームワークであるDiMEを紹介する。
通常の微分方程式(ODE)で運動伝達を捉えることで、運動場を規則化するのに役立つ。
また、DMEはソースオブジェクトの複数の異なるビューを簡単に利用することができるというODEの考え方を自然に拡張する。
論文 参考訳(メタデータ) (2021-10-09T22:44:30Z) - MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying
Motions [70.30211294212603]
本稿では,空間と時間の両方に連続する時空変動を予測できる新たな次元からビデオ予測を行う。
本研究では,動きの複雑な変動を捉え,時空変化に適応できるMotionRNNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-03T08:11:50Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。