論文の概要: VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet
- arxiv url: http://arxiv.org/abs/2307.14073v2
- Date: Thu, 3 Aug 2023 09:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 16:26:24.968884
- Title: VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet
- Title(参考訳): videocontrolnet:ディフュージョンモデルとコントロールネットを用いた動画対ビデオ翻訳フレームワーク
- Authors: Zhihao Hu, Dong Xu
- Abstract要約: 本稿では,VideoControlNetと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
時間的冗長性を低減するために動き情報を利用するビデオコーデックにインスパイアされたこのフレームワークは、動き情報を用いて冗長領域の再生を防止する。
実験により,提案したVideoControlNetは,事前学習した大拡散モデルの生成能力を継承することを示した。
- 参考スコア(独自算出の注目度): 26.458417029197957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion models like StableDiffusion have achieved impressive
image generation results. However, the generation process of such diffusion
models is uncontrollable, which makes it hard to generate videos with
continuous and consistent content. In this work, by using the diffusion model
with ControlNet, we proposed a new motion-guided video-to-video translation
framework called VideoControlNet to generate various videos based on the given
prompts and the condition from the input video. Inspired by the video codecs
that use motion information for reducing temporal redundancy, our framework
uses motion information to prevent the regeneration of the redundant areas for
content consistency. Specifically, we generate the first frame (i.e., the
I-frame) by using the diffusion model with ControlNet. Then we generate other
key frames (i.e., the P-frame) based on the previous I/P-frame by using our
newly proposed motion-guided P-frame generation (MgPG) method, in which the
P-frames are generated based on the motion information and the occlusion areas
are inpainted by using the diffusion model. Finally, the rest frames (i.e., the
B-frame) are generated by using our motion-guided B-frame interpolation (MgBI)
module. Our experiments demonstrate that our proposed VideoControlNet inherits
the generation capability of the pre-trained large diffusion model and extends
the image diffusion model to the video diffusion model by using motion
information. More results are provided at our project page.
- Abstract(参考訳): 近年,stablediffusionのような拡散モデルが印象的な画像生成結果を得ている。
しかし、そのような拡散モデルの生成プロセスは制御不能であり、連続的かつ一貫したコンテンツを持つビデオを生成するのが困難である。
本研究では、制御ネットを用いた拡散モデルを用いて、入力されたプロンプトと条件に基づいて様々な動画を生成するために、ビデオコントロルネットと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
映像コーデックにインスパイアされ、時間的冗長性を低減させる動き情報を用いて、コンテンツ一貫性のための冗長領域の再生を防止する。
具体的には,制御ネットを用いた拡散モデルを用いて第1フレーム(すなわちIフレーム)を生成する。
そして、新しい動き誘導型Pフレーム生成法(MgPG)を用いて、従来のI/Pフレームに基づく他の鍵フレーム(すなわちPフレーム)を生成し、この拡散モデルを用いてPフレームを動作情報に基づいて生成し、閉塞領域を印加する。
最後に、動作誘導Bフレーム補間(MgBI)モジュールを用いて、残りのフレーム(Bフレーム)を生成する。
提案するビデオコントロールネットは,事前学習した大規模拡散モデルの生成能力を継承し,映像拡散モデルを運動情報を用いてビデオ拡散モデルに拡張する。
さらなる結果は、プロジェクトのページにある。
関連論文リスト
- ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。