論文の概要: BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis
via Bridging Image and Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02813v1
- Date: Tue, 5 Dec 2023 14:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:19:16.077636
- Title: BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis
via Bridging Image and Video Diffusion Models
- Title(参考訳): BIVDiff: ブリッジ画像とビデオ拡散モデルによる汎用ビデオ合成のための学習自由フレームワーク
- Authors: Fengyuan Shi, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang
- Abstract要約: 本稿では,BIVDiffと命名されたトレーニング不要な汎用ビデオ合成フレームワークを提案する。
まず、フレームワイド映像生成に画像拡散モデルを使用し、次いで、生成されたビデオ上でMixed Inversionを行い、最後に、時間的平滑化のためにビデオ拡散モデルに反転潜像を入力する。
BIVDiffの有効性と汎用性を検証するため、制御可能なビデオ生成ビデオ編集、ビデオインペイント、アウトペイントなど、幅広い映像生成タスクを実行する。
- 参考スコア(独自算出の注目度): 43.16856756058962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have made tremendous progress in text-driven image and video
generation. Now text-to-image foundation models are widely applied to various
downstream image synthesis tasks, such as controllable image generation and
image editing, while downstream video synthesis tasks are less explored for
several reasons. First, it requires huge memory and compute overhead to train a
video generation foundation model. Even with video foundation models,
additional costly training is still required for downstream video synthesis
tasks. Second, although some works extend image diffusion models into videos in
a training-free manner, temporal consistency cannot be well kept. Finally,
these adaption methods are specifically designed for one task and fail to
generalize to different downstream video synthesis tasks. To mitigate these
issues, we propose a training-free general-purpose video synthesis framework,
coined as BIVDiff, via bridging specific image diffusion models and general
text-to-video foundation diffusion models. Specifically, we first use an image
diffusion model (like ControlNet, Instruct Pix2Pix) for frame-wise video
generation, then perform Mixed Inversion on the generated video, and finally
input the inverted latents into the video diffusion model for temporal
smoothing. Decoupling image and video models enables flexible image model
selection for different purposes, which endows the framework with strong task
generalization and high efficiency. To validate the effectiveness and general
use of BIVDiff, we perform a wide range of video generation tasks, including
controllable video generation video editing, video inpainting and outpainting.
Our project page is available at https://bivdiff.github.io.
- Abstract(参考訳): 拡散モデルはテキスト駆動画像とビデオ生成において大きな進歩を遂げている。
現在、テキスト・ツー・イメージの基礎モデルは、制御可能な画像生成や画像編集といった様々なダウンストリーム画像合成タスクに広く適用されており、ダウンストリームビデオ合成タスクはいくつかの理由から研究されていない。
まず、ビデオ生成の基礎モデルのトレーニングには、巨大なメモリと計算オーバーヘッドが必要です。
ビデオファウンデーションモデルでも、下流のビデオ合成タスクには追加のコストのかかるトレーニングが必要である。
第二に、画像拡散モデルをトレーニングフリーにビデオに拡張する作品もあるが、時間的一貫性は維持できない。
最後に、これらの適応法は1つのタスク用に特別に設計されており、異なる下流のビデオ合成タスクに一般化できない。
そこで,本稿では,特定の画像拡散モデルと一般的なテキスト・ビデオ基礎拡散モデルとを橋渡しすることにより,bivdiffと呼ばれる学習フリーな汎用映像合成フレームワークを提案する。
具体的には,まずフレーム毎の映像生成に画像拡散モデル(controlnet,instruct pix2pixなど)を使用し,生成した映像に対して混合反転を行い,最後に反転した潜時をテンポラリ平滑化のためにビデオ拡散モデルに入力する。
画像モデルとビデオモデルを分離することで、様々な目的のために柔軟な画像モデル選択が可能になる。
bivdiffの有効性と汎用性を検証するために,制御可能なビデオ生成ビデオ編集,ビデオインペインティング,アウトパインティングなど,幅広い映像生成タスクを行う。
プロジェクトのページはhttps://bivdiff.github.ioで閲覧できます。
関連論文リスト
- DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with
Diffusion Models [99.84195819571411]
ART$boldsymbolcdot$Vは拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークである。
隣接するフレーム間の単純な連続的な動きしか学ばない。
様々なプロンプトで調整された、任意に長いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T18:59:47Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文 参考訳(メタデータ) (2022-11-21T18:59:33Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。