Fugu-MT 論文翻訳(概要): MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

論文の概要: MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

arxiv url: http://arxiv.org/abs/2405.20222v3
Date: Thu, 11 Jul 2024 16:26:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 22:37:59.526659
Title: MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model
Title（参考訳）: MOFA-Video:凍結画像-映像拡散モデルにおける生成運動場適応による制御可能な画像アニメーション
Authors: Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng,
Abstract要約: MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
参考スコア（独自算出の注目度）: 78.11258752076046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation. Project Page: https://myniuuu.github.io/MOFA_Video/
Abstract（参考訳）: 提案するMOFA-Videoは,人間のランドマーク参照や手動軌跡,さらには提供されるビデオなど,さまざまな制御可能な信号を用いて,所定の画像から映像を生成する,高度な制御可能な画像アニメーション手法である。これは、特定の運動領域でしか動作できない、あるいは拡散前の弱い制御能力を示す従来の方法とは異なる。この目的を達成するために、ビデオ生成パイプラインで生成された動きを制御するために複数のドメイン対応モーションフィールドアダプタ (\ie, MOFA-Adapters) を設計する。 MOFA-Adapters では,映像の時間的動きの整合性を考慮し,まず所定のスパース制御条件から濃密な動きの流れを発生させ,その画像のマルチスケール特徴を安定した映像拡散生成のためのガイド機能としてラップする。我々は手動の軌跡と人間のランドマークの2つのモーションアダプタを個別に訓練する。トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできます。 Project Page: https://myniuuu.github.io/MOFA_Video/

関連論文リスト

ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer [10.44905923812975]
ゼロショットビデオ生成のためのLMPフレームワークを提案する。本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,生成した動画の動画をユーザが提供するモーションビデオを参照できるようにする。提案手法は, 生成品質, 即時ビデオの整合性, 制御能力における最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-20T10:18:29Z)
ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。 ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文参考訳（メタデータ） (2025-04-03T10:15:52Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
AnimateAnything: Consistent and Controllable Animation for Video Generation [24.576022028967195]
本稿では,AnimateAnythingという統合制御可能なビデオ生成手法を提案する。様々な条件にまたがる正確で一貫したビデオ操作を容易にする。実験により,本手法は最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-16T16:36:49Z)
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文参考訳（メタデータ） (2024-10-17T17:52:57Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。 I2Vを2段階に分解し、明示的なモーションモデリングを行う。 Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文参考訳（メタデータ） (2024-01-29T09:06:43Z)
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文参考訳（メタデータ） (2024-01-03T16:43:47Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文参考訳（メタデータ） (2023-10-12T16:26:18Z)
LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。