論文の概要: VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet
- arxiv url: http://arxiv.org/abs/2307.14073v2
- Date: Thu, 3 Aug 2023 09:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 16:26:24.968884
- Title: VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet
- Title(参考訳): videocontrolnet:ディフュージョンモデルとコントロールネットを用いた動画対ビデオ翻訳フレームワーク
- Authors: Zhihao Hu, Dong Xu
- Abstract要約: 本稿では,VideoControlNetと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
時間的冗長性を低減するために動き情報を利用するビデオコーデックにインスパイアされたこのフレームワークは、動き情報を用いて冗長領域の再生を防止する。
実験により,提案したVideoControlNetは,事前学習した大拡散モデルの生成能力を継承することを示した。
- 参考スコア(独自算出の注目度): 26.458417029197957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion models like StableDiffusion have achieved impressive
image generation results. However, the generation process of such diffusion
models is uncontrollable, which makes it hard to generate videos with
continuous and consistent content. In this work, by using the diffusion model
with ControlNet, we proposed a new motion-guided video-to-video translation
framework called VideoControlNet to generate various videos based on the given
prompts and the condition from the input video. Inspired by the video codecs
that use motion information for reducing temporal redundancy, our framework
uses motion information to prevent the regeneration of the redundant areas for
content consistency. Specifically, we generate the first frame (i.e., the
I-frame) by using the diffusion model with ControlNet. Then we generate other
key frames (i.e., the P-frame) based on the previous I/P-frame by using our
newly proposed motion-guided P-frame generation (MgPG) method, in which the
P-frames are generated based on the motion information and the occlusion areas
are inpainted by using the diffusion model. Finally, the rest frames (i.e., the
B-frame) are generated by using our motion-guided B-frame interpolation (MgBI)
module. Our experiments demonstrate that our proposed VideoControlNet inherits
the generation capability of the pre-trained large diffusion model and extends
the image diffusion model to the video diffusion model by using motion
information. More results are provided at our project page.
- Abstract(参考訳): 近年,stablediffusionのような拡散モデルが印象的な画像生成結果を得ている。
しかし、そのような拡散モデルの生成プロセスは制御不能であり、連続的かつ一貫したコンテンツを持つビデオを生成するのが困難である。
本研究では、制御ネットを用いた拡散モデルを用いて、入力されたプロンプトと条件に基づいて様々な動画を生成するために、ビデオコントロルネットと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
映像コーデックにインスパイアされ、時間的冗長性を低減させる動き情報を用いて、コンテンツ一貫性のための冗長領域の再生を防止する。
具体的には,制御ネットを用いた拡散モデルを用いて第1フレーム(すなわちIフレーム)を生成する。
そして、新しい動き誘導型Pフレーム生成法(MgPG)を用いて、従来のI/Pフレームに基づく他の鍵フレーム(すなわちPフレーム)を生成し、この拡散モデルを用いてPフレームを動作情報に基づいて生成し、閉塞領域を印加する。
最後に、動作誘導Bフレーム補間(MgBI)モジュールを用いて、残りのフレーム(Bフレーム)を生成する。
提案するビデオコントロールネットは,事前学習した大規模拡散モデルの生成能力を継承し,映像拡散モデルを運動情報を用いてビデオ拡散モデルに拡張する。
さらなる結果は、プロジェクトのページにある。
関連論文リスト
- Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。