論文の概要: Diffusion Adversarial Post-Training for One-Step Video Generation
- arxiv url: http://arxiv.org/abs/2501.08316v1
- Date: Tue, 14 Jan 2025 18:51:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:31.418806
- Title: Diffusion Adversarial Post-Training for One-Step Video Generation
- Title(参考訳): ワンステップビデオ生成のための拡散反転後訓練
- Authors: Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang,
- Abstract要約: 本稿では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。
我々のモデルは1ステップで1024px画像を生成することができ、最先端の手法に匹敵する品質を実現することができる。
- 参考スコア(独自算出の注目度): 26.14991703029242
- License:
- Abstract: The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.
- Abstract(参考訳): 拡散モデルは画像生成やビデオ生成に広く用いられているが、反復生成プロセスは遅く、拡張可能である。
既存の蒸留法は画像領域における一段階生成の可能性を示しているが、それでもかなりの品質劣化に悩まされている。
本研究では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。
トレーニングの安定性と品質を改善するため、モデルアーキテクチャとトレーニング手順の改善と、近似されたR1正規化目標を導入する。
実験により,我々の対向学習後モデルであるSeaweed-APTは,2秒,1280x720,24fpsの動画を,単一の前方評価ステップでリアルタイムで生成できることが実証された。
さらに,本モデルでは,1ステップで1024px画像を生成することができ,最先端の手法に匹敵する品質を実現することができる。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [29.77646091911169]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - Lifelong Learning of Video Diffusion Models From a Single Video Stream [21.20227667908252]
本研究は,単一の連続ビデオストリームから自己回帰的ビデオ拡散モデルのトレーニングが可能であることを実証する。
また、生涯にわたるビデオモデル学習を評価するのに適した3つの新しい単一ビデオ生成モデルデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-06-07T10:32:23Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Upsample Guidance: Scale Up Diffusion Models without Training [0.0]
事前学習した拡散モデルを適用して高解像度画像を生成する手法であるアップサンプルガイダンスを導入する。
注目すべきは、このテクニックは追加のトレーニングや外部モデルへの依存を必要としないことだ。
アップサンプルガイダンスは,画素空間,潜時空間,ビデオ拡散モデルなど,様々なモデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T07:49:08Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。