論文の概要: UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer
- arxiv url: http://arxiv.org/abs/2412.09389v1
- Date: Thu, 12 Dec 2024 15:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:55.678321
- Title: UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer
- Title(参考訳): UFO:一様フレームオーガナイザによる拡散型ビデオ生成の強化
- Authors: Delong Liu, Zhaohui Hou, Mingjie Zhan, Shihao Han, Zhicheng Zhao, Fei Su,
- Abstract要約: UFO(Uniform Frame Organizer)と呼ばれる非侵襲的なプラグインを提案する。
UFOはどんな拡散ベースのビデオ生成モデルとも互換性がある。
UFOのトレーニングはシンプルで効率的で、最小限のリソースを必要とし、スタイリングされたトレーニングをサポートする。
- 参考スコア(独自算出の注目度): 20.121885706650758
- License:
- Abstract: Recently, diffusion-based video generation models have achieved significant success. However, existing models often suffer from issues like weak consistency and declining image quality over time. To overcome these challenges, inspired by aesthetic principles, we propose a non-invasive plug-in called Uniform Frame Organizer (UFO), which is compatible with any diffusion-based video generation model. The UFO comprises a series of adaptive adapters with adjustable intensities, which can significantly enhance the consistency between the foreground and background of videos and improve image quality without altering the original model parameters when integrated. The training for UFO is simple, efficient, requires minimal resources, and supports stylized training. Its modular design allows for the combination of multiple UFOs, enabling the customization of personalized video generation models. Furthermore, the UFO also supports direct transferability across different models of the same specification without the need for specific retraining. The experimental results indicate that UFO effectively enhances video generation quality and demonstrates its superiority in public video generation benchmarks. The code will be publicly available at https://github.com/Delong-liu-bupt/UFO.
- Abstract(参考訳): 近年,拡散型ビデオ生成モデルは大きな成功を収めている。
しかし、既存のモデルは、一貫性の弱さや画質の低下といった問題に悩まされることが多い。
審美的原理にインスパイアされたこれらの課題を克服するため、拡散型ビデオ生成モデルと互換性のある Unform Frame Organizer (UFO) と呼ばれる非侵襲的なプラグインを提案する。
UFOは、調整可能な強度を持つ一連の適応アダプタを備えており、ビデオの前景と背景との整合性を著しく向上し、統合時に元のモデルパラメータを変更することなく画質を向上させることができる。
UFOのトレーニングはシンプルで効率的で、最小限のリソースを必要とし、スタイリングされたトレーニングをサポートする。
モジュラーデザインは複数のUFOの組み合わせを可能にし、パーソナライズされたビデオ生成モデルのカスタマイズを可能にする。
さらにUFOは、特定の再訓練を必要とせず、同一仕様の異なるモデル間で直接転送可能である。
実験の結果,UFOは映像生成品質を効果的に向上し,公開映像生成ベンチマークにおいてその優位性を示すことが示された。
コードはhttps://github.com/Delong-liu-bupt/UFOで公開される。
関連論文リスト
- ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - UFOGen: You Forward Once Large Scale Text-to-Image Generation via
Diffusion GANs [16.121569507866848]
我々は,超高速でワンステップのテキスト・ツー・イメージ合成を目的とした新しい生成モデルUFOGenを提案する。
従来のアプローチとは異なり、UFOGenはGANの目的と拡散モデルを統合するハイブリッド手法を採用している。
UFOGenは、1ステップでテキスト記述に条件付けされた高品質な画像を効率よく生成する。
論文 参考訳(メタデータ) (2023-11-14T23:07:50Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z) - UFO: Unified Feature Optimization [67.77936811483664]
本稿では、深層モデルの訓練と展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。
UFOは、すべてのタスクに対して大規模な事前訓練を行うことで、各タスクに利益をもたらすことを目指している。
UFOは、大規模な事前訓練の利点を維持しながら、柔軟な展開に優れた利便性を提供する。
論文 参考訳(メタデータ) (2022-07-21T07:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。