論文の概要: OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.10501v1
- Date: Fri, 15 Nov 2024 11:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:51.527725
- Title: OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models
- Title(参考訳): OnlyFlow:ビデオ拡散モデルのための光フローベースモーションコンディショニング
- Authors: Mathis Koroglu, Hugo Caselles-Dupré, Guillaume Jeanneret Sanmiguel, Matthieu Cord,
- Abstract要約: 本稿では,カメラの移動制御や映像編集などの様々な用途において,正確な制御を行うテキスト・ツー・ビデオ生成タスクの問題点について考察する。
入力ビデオから抽出した光フローを利用して生成ビデオの動作を条件付ける手法である OnlyFlow を提案する。
- 参考スコア(独自算出の注目度): 46.74826882670651
- License:
- Abstract: We consider the problem of text-to-video generation tasks with precise control for various applications such as camera movement control and video-to-video editing. Most methods tacking this problem rely on providing user-defined controls, such as binary masks or camera movement embeddings. In our approach we propose OnlyFlow, an approach leveraging the optical flow firstly extracted from an input video to condition the motion of generated videos. Using a text prompt and an input video, OnlyFlow allows the user to generate videos that respect the motion of the input video as well as the text prompt. This is implemented through an optical flow estimation model applied on the input video, which is then fed to a trainable optical flow encoder. The output feature maps are then injected into the text-to-video backbone model. We perform quantitative, qualitative and user preference studies to show that OnlyFlow positively compares to state-of-the-art methods on a wide range of tasks, even though OnlyFlow was not specifically trained for such tasks. OnlyFlow thus constitutes a versatile, lightweight yet efficient method for controlling motion in text-to-video generation. Models and code will be made available on GitHub and HuggingFace.
- Abstract(参考訳): 本稿では,カメラの移動制御や映像編集などの様々な用途において,正確な制御を行うテキスト・ツー・ビデオ生成タスクの問題点について考察する。
この問題に取り組むほとんどの方法は、バイナリマスクやカメラムーブメントの埋め込みなど、ユーザ定義のコントロールを提供することに依存している。
提案手法は,入力ビデオから最初に抽出した光フローを利用して生成ビデオの動作を条件付ける手法である。
OnlyFlowでは、テキストプロンプトと入力ビデオを使用して、入力ビデオの動作を尊重するビデオと、テキストプロンプトを生成することができる。
これは、入力ビデオに適用された光フロー推定モデルにより実装され、トレーニング可能な光フローエンコーダに供給される。
出力された特徴マップは、テキストからビデオまでのバックボーンモデルに注入される。
OnlyFlowは,特定のタスクに対してトレーニングを受けていないにも関わらず,幅広いタスクにおける最先端の手法と正に比較できることを示すため,定量的,定性的,ユーザ嗜好的な研究を行った。
したがって、No onlyFlowはテキスト・ビデオ・ジェネレーションにおける動きを制御する汎用的で軽量で効率的な方法である。
モデルとコードはGitHubとHuggingFaceで利用可能になる。
関連論文リスト
- MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion
Vector Prior [16.633665275166706]
圧縮ビデオにおける光フロー推定の速度と精度を向上させるために運動ベクトルを用いた光フローモデルMVFlowを提案する。
実験の結果,既存のモデルと比較して提案したMVFlowの1.09倍の精度を示し,既存のモデルと同様の精度で保存時間を短縮した。
論文 参考訳(メタデータ) (2023-08-03T07:16:18Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z) - FlowControl: Optical Flow Based Visual Servoing [34.29983197032506]
ワンショット模倣(One-shot mimicion)とは、コンピュータコードの面倒な構築ではなく、単一のデモからロボットプログラミングのビジョンである。
本稿では,現代の学習に基づく光学的フローを利用して,操作タスクのワンショット模倣を実現する手法を提案する。
FlowControlと呼ばれる私たちのアプローチは、特定のフォアグラウンドマスクを使用して、興味のあるオブジェクトに出席するデモビデオを継続的に追跡します。
論文 参考訳(メタデータ) (2020-07-01T07:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。