Fugu-MT 論文翻訳(概要): Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

論文の概要: Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

arxiv url: http://arxiv.org/abs/2401.15977v2
Date: Wed, 31 Jan 2024 07:41:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 11:21:12.131108
Title: Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling
Title（参考訳）: motion-i2v : 明示的な動きモデリングによる映像から映像への一貫性と制御性
Authors: Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li
Abstract要約: Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。 I2Vを2段階に分解し、明示的なモーションモデリングを行う。 Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
参考スコア（独自算出の注目度）: 62.19142543520805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation. Please see our project page at https://xiaoyushi97.github.io/Motion-I2V/.
Abstract（参考訳）: motion-i2vは,一貫性と制御性を備えた映像対ビデオ生成(i2v)のための新しいフレームワークである。複雑な画像間マッピングを直接学習する従来の手法とは対照的に、Motion-I2VはI2Vを明示的なモーションモデリングで2段階に分解する。第1段階では、参照画像の画素の軌跡を推定することに焦点を当てた拡散に基づく動き場予測器を提案する。第2段階では,ビデオ潜伏拡散モデルにおける制限された1次元の時間的注意力を高めるために,時間的注意動作を提案する。本モジュールは、第1段階からの予測軌道の誘導により、参照画像の特徴を合成フレームに効果的に伝達することができる。既存の手法と比較して、Motion-I2Vは大きな動きや視点の変化があっても、より一貫したビデオを生成することができる。スパース軌道制御ネットを第1段に訓練することにより、motion-i2vは、スパース軌道と領域アノテーションにより、ユーザの動き軌跡や動き領域を正確に制御できる。これにより、テキスト命令のみに依存するよりも、I2Vプロセスの制御性が向上する。さらに、Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの翻訳もサポートしている。定性的かつ定量的な比較は、一貫した制御可能な画像-映像生成における従来のアプローチよりもMotion-I2Vの利点を示している。プロジェクトページはhttps://xiaoyushi97.github.io/Motion-I2V/でご覧ください。

関連論文リスト

AnyI2V: Animating Any Conditional Image with Motion Control [25.49332963076066]
我々は,任意の条件付き画像をユーザ定義のモーショントラジェクトリと一致させる,トレーニング不要のフレームワークであるAnyI2Vを提案する。実験により、提案したAnyI2Vは優れた性能を示し、空間及びモーション制御ビデオ生成における新たな視点を提供する。
論文参考訳（メタデータ） (2025-07-03T17:59:02Z)
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文参考訳（メタデータ） (2025-06-05T16:18:32Z)
MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。 WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文参考訳（メタデータ） (2025-05-26T17:59:03Z)
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文参考訳（メタデータ） (2025-04-11T09:01:09Z)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文参考訳（メタデータ） (2025-03-25T05:51:14Z)
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-02T16:06:16Z)
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文参考訳（メタデータ） (2025-02-18T19:12:51Z)
MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation [55.238542326124545]
静止画像に画像間(I2V)生成を条件付け、動き強度を付加的な制御信号として最近強化した。これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
論文参考訳（メタデータ） (2024-12-08T08:12:37Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文参考訳（メタデータ） (2024-05-30T16:22:22Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [37.05422543076405]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文参考訳（メタデータ） (2024-02-06T19:08:18Z)
Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文参考訳（メタデータ） (2023-11-24T06:08:27Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions [70.30211294212603]
本稿では,空間と時間の両方に連続する時空変動を予測できる新たな次元からビデオ予測を行う。本研究では,動きの複雑な変動を捉え,時空変化に適応できるMotionRNNフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-03T08:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。