論文の概要: SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.00195v1
- Date: Fri, 31 May 2024 21:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:13:57.191885
- Title: SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model
- Title(参考訳): SNED:効率的なビデオ拡散モデルのための重ね合わせネットワークアーキテクチャ探索
- Authors: Zhengang Li, Yan Kang, Yuchen Liu, Difan Liu, Tobias Hinz, Feng Liu, Yanzhi Wang,
- Abstract要約: 本稿では,効率的な映像拡散モデルのための重ね合わせネットワークアーキテクチャ探索手法SNEDを提案する。
提案手法では,様々なモデルコストと解像度の選択肢をターゲットにしたスーパーネットトレーニングパラダイムを採用している。
当社のフレームワークは、高い効率で、さまざまなモデルオプションに匹敵する結果を一貫して生成しています。
- 参考スコア(独自算出の注目度): 41.825824810180215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While AI-generated content has garnered significant attention, achieving photo-realistic video synthesis remains a formidable challenge. Despite the promising advances in diffusion models for video generation quality, the complex model architecture and substantial computational demands for both training and inference create a significant gap between these models and real-world applications. This paper presents SNED, a superposition network architecture search method for efficient video diffusion model. Our method employs a supernet training paradigm that targets various model cost and resolution options using a weight-sharing method. Moreover, we propose the supernet training sampling warm-up for fast training optimization. To showcase the flexibility of our method, we conduct experiments involving both pixel-space and latent-space video diffusion models. The results demonstrate that our framework consistently produces comparable results across different model options with high efficiency. According to the experiment for the pixel-space video diffusion model, we can achieve consistent video generation results simultaneously across 64 x 64 to 256 x 256 resolutions with a large range of model sizes from 640M to 1.6B number of parameters for pixel-space video diffusion models.
- Abstract(参考訳): AI生成コンテンツは大きな注目を集めているが、写真リアリスティックなビデオ合成を実現することは、依然として困難な課題だ。
ビデオ生成品質の拡散モデルが期待できる進歩にもかかわらず、複雑なモデルアーキテクチャと、トレーニングと推論の両方に対する実質的な計算要求は、これらのモデルと現実世界のアプリケーションの間に大きなギャップを生じさせる。
本稿では,効率的な映像拡散モデルのための重ね合わせネットワークアーキテクチャ探索手法SNEDを提案する。
本手法は,重み共有方式を用いて,様々なモデルコストと解像度の選択肢をターゲットにしたスーパーネットトレーニングパラダイムを用いる。
また,高速トレーニング最適化のためのスーパーネットトレーニングサンプリングウォームアップを提案する。
本手法の柔軟性を示すため,画素空間と潜時空間の両方の拡散モデルを用いた実験を行った。
その結果、我々のフレームワークは、高い効率で、異なるモデルオプションにまたがる同等の結果を連続的に生成することを示した。
画素空間ビデオ拡散モデルの実験によると、64 x 64 から256 x 256 の解像度で一貫したビデオ生成結果が同時に得られ、640M から1.6B のモデルサイズを持つ。
関連論文リスト
- Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。