論文の概要: FlexiFilm: Long Video Generation with Flexible Conditions
- arxiv url: http://arxiv.org/abs/2404.18620v1
- Date: Mon, 29 Apr 2024 11:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.642563
- Title: FlexiFilm: Long Video Generation with Flexible Conditions
- Title(参考訳): FlexiFilm: フレキシブルな条件の長いビデオ生成
- Authors: Yichen Ouyang, jianhao Yuan, Hao Zhao, Gaoang Wang, Bo zhao,
- Abstract要約: 長いビデオ生成に適した新しい拡散モデルであるFlexiFilmを紹介する。
本フレームワークは時間条件を組み込んで生成条件とマルチモーダル条件のより一貫した関係を確立する。
実験の結果、FlexiFilmは長くて一貫したビデオを生成し、それぞれ30秒以上の長さで、質的かつ定量的な分析において競合より優れています。
- 参考スコア(独自算出の注目度): 11.315778374465806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long and consistent videos has emerged as a significant yet challenging problem. While most existing diffusion-based video generation models, derived from image generation models, demonstrate promising performance in generating short videos, their simple conditioning mechanism and sampling strategy-originally designed for image generation-cause severe performance degradation when adapted to long video generation. This results in prominent temporal inconsistency and overexposure. Thus, in this work, we introduce FlexiFilm, a new diffusion model tailored for long video generation. Our framework incorporates a temporal conditioner to establish a more consistent relationship between generation and multi-modal conditions, and a resampling strategy to tackle overexposure. Empirical results demonstrate FlexiFilm generates long and consistent videos, each over 30 seconds in length, outperforming competitors in qualitative and quantitative analyses. Project page: https://y-ichen.github.io/FlexiFilm-Page/
- Abstract(参考訳): 長く一貫したビデオを生成することは、重大な問題だが難しい問題として浮上している。
既存の拡散型ビデオ生成モデルの多くは、画像生成モデルから派生したもので、短いビデオの生成において有望な性能を示すが、その単純な条件付け機構とサンプリング戦略は、元々は画像生成のために設計されており、長大なビデオ生成に適応する場合に顕著な性能劣化が生じる。
これにより、時間的不整合と過度の露出が顕著になる。
そこで本研究では,長いビデオ生成に適した新しい拡散モデルであるFlexiFilmを紹介する。
本フレームワークは,生成条件とマルチモーダル条件のより一貫した関係を確立するための時間条件と,過剰露光に対処するための再サンプリング戦略を組み込んだものである。
実験の結果、FlexiFilmは長くて一貫したビデオを生成し、それぞれ30秒以上の長さで、質的かつ定量的な分析において競合より優れています。
プロジェクトページ: https://y-ichen.github.io/FlexiFilm-Page/
関連論文リスト
- Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。