論文の概要: VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.05438v1
- Date: Fri, 8 Mar 2024 16:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:07:46.862225
- Title: VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models
- Title(参考訳): VideoElevator:Versatile Text-to-Image Diffusion Modelによるビデオ生成品質の向上
- Authors: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong
Xie, Xiangyang Ji, Wangmeng Zuo
- Abstract要約: テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
- 参考スコア(独自算出の注目度): 94.25084162939488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.
- Abstract(参考訳): text-to-image diffusion models (t2i)は、現実的で美的な画像を作成する前例のない能力を示している。
逆に、テキスト間拡散モデル(T2V)は、トレーニングビデオの品質と量不足のため、フレーム品質とテキストアライメントがまだ遅れている。
本稿では,T2I の優れた機能を利用して,T2V の性能を向上させる訓練不要でプラグアンドプレイ方式である VideoElevator を紹介する。
従来のT2Vサンプリング(時間的および空間的モデリング)とは異なり、VideoElevatorは各サンプリングステップを時間的動きの精細化と空間的品質向上に明示的に分解する。
具体的には、時間運動精製はT2Vをカプセル化して時間的一貫性を高め、続いてT2Iが要求する雑音分布を反転させる。
次に、空間的品質上昇ハーネスが膨らんだT2Iを使って、ノイズの少ない潜水剤を直接予測し、より写真リアリスティックな詳細を追加する。
各種T2VとT2Iを組み合わせた広範囲なプロンプト実験を行った。
その結果, VideoElevatorは, 基礎的T2IによるT2Vベースラインの性能向上だけでなく, パーソナライズされたT2Iによるスタイリスティックなビデオ合成を促進することがわかった。
私たちのコードはhttps://github.com/ybybzhang/videoelevatorで利用可能です。
関連論文リスト
- Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文 参考訳(メタデータ) (2024-07-11T17:06:53Z) - Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [69.96398489841116]
フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文 参考訳(メタデータ) (2024-05-09T17:35:16Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。