Fugu-MT 論文翻訳(概要): BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models

論文の概要: BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models

arxiv url: http://arxiv.org/abs/2312.02813v1
Date: Tue, 5 Dec 2023 14:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:19:16.077636
Title: BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models
Title（参考訳）: BIVDiff: ブリッジ画像とビデオ拡散モデルによる汎用ビデオ合成のための学習自由フレームワーク
Authors: Fengyuan Shi, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang
Abstract要約: 本稿では,BIVDiffと命名されたトレーニング不要な汎用ビデオ合成フレームワークを提案する。まず、フレームワイド映像生成に画像拡散モデルを使用し、次いで、生成されたビデオ上でMixed Inversionを行い、最後に、時間的平滑化のためにビデオ拡散モデルに反転潜像を入力する。 BIVDiffの有効性と汎用性を検証するため、制御可能なビデオ生成ビデオ編集、ビデオインペイント、アウトペイントなど、幅広い映像生成タスクを実行する。
参考スコア（独自算出の注目度）: 43.16856756058962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have made tremendous progress in text-driven image and video generation. Now text-to-image foundation models are widely applied to various downstream image synthesis tasks, such as controllable image generation and image editing, while downstream video synthesis tasks are less explored for several reasons. First, it requires huge memory and compute overhead to train a video generation foundation model. Even with video foundation models, additional costly training is still required for downstream video synthesis tasks. Second, although some works extend image diffusion models into videos in a training-free manner, temporal consistency cannot be well kept. Finally, these adaption methods are specifically designed for one task and fail to generalize to different downstream video synthesis tasks. To mitigate these issues, we propose a training-free general-purpose video synthesis framework, coined as BIVDiff, via bridging specific image diffusion models and general text-to-video foundation diffusion models. Specifically, we first use an image diffusion model (like ControlNet, Instruct Pix2Pix) for frame-wise video generation, then perform Mixed Inversion on the generated video, and finally input the inverted latents into the video diffusion model for temporal smoothing. Decoupling image and video models enables flexible image model selection for different purposes, which endows the framework with strong task generalization and high efficiency. To validate the effectiveness and general use of BIVDiff, we perform a wide range of video generation tasks, including controllable video generation video editing, video inpainting and outpainting. Our project page is available at https://bivdiff.github.io.
Abstract（参考訳）: 拡散モデルはテキスト駆動画像とビデオ生成において大きな進歩を遂げている。現在、テキスト・ツー・イメージの基礎モデルは、制御可能な画像生成や画像編集といった様々なダウンストリーム画像合成タスクに広く適用されており、ダウンストリームビデオ合成タスクはいくつかの理由から研究されていない。まず、ビデオ生成の基礎モデルのトレーニングには、巨大なメモリと計算オーバーヘッドが必要です。ビデオファウンデーションモデルでも、下流のビデオ合成タスクには追加のコストのかかるトレーニングが必要である。第二に、画像拡散モデルをトレーニングフリーにビデオに拡張する作品もあるが、時間的一貫性は維持できない。最後に、これらの適応法は1つのタスク用に特別に設計されており、異なる下流のビデオ合成タスクに一般化できない。そこで,本稿では,特定の画像拡散モデルと一般的なテキスト・ビデオ基礎拡散モデルとを橋渡しすることにより,bivdiffと呼ばれる学習フリーな汎用映像合成フレームワークを提案する。具体的には,まずフレーム毎の映像生成に画像拡散モデル(controlnet,instruct pix2pixなど)を使用し,生成した映像に対して混合反転を行い,最後に反転した潜時をテンポラリ平滑化のためにビデオ拡散モデルに入力する。画像モデルとビデオモデルを分離することで、様々な目的のために柔軟な画像モデル選択が可能になる。 bivdiffの有効性と汎用性を検証するために,制御可能なビデオ生成ビデオ編集,ビデオインペインティング,アウトパインティングなど,幅広い映像生成タスクを行う。プロジェクトのページはhttps://bivdiff.github.ioで閲覧できます。

関連論文リスト

Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文参考訳（メタデータ） (2024-08-21T08:01:00Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文参考訳（メタデータ） (2023-12-05T03:16:31Z)
ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models [99.84195819571411]
ART$boldsymbolcdot$Vは拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークである。隣接するフレーム間の単純な連続的な動きしか学ばない。様々なプロンプトで調整された、任意に長いビデオを生成することができる。
論文参考訳（メタデータ） (2023-11-30T18:59:47Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文参考訳（メタデータ） (2022-11-21T18:59:33Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。