論文の概要: AnimateDiff-Lightning: Cross-Model Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2403.12706v1
- Date: Tue, 19 Mar 2024 13:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:13:49.812305
- Title: AnimateDiff-Lightning: Cross-Model Diffusion Distillation
- Title(参考訳): AnimateDiff-Lightning:クロスモデル拡散蒸留
- Authors: Shanchuan Lin, Xiao Yang,
- Abstract要約: AnimateDiff-Lightningを光速ビデオ生成用として提案する。
本モデルは, プログレッシブ逆拡散蒸留法を用いて, 数ステップのビデオ生成における新しい最先端技術を実現する。
- 参考スコア(独自算出の注目度): 3.9571411466709847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AnimateDiff-Lightning for lightning-fast video generation. Our model uses progressive adversarial diffusion distillation to achieve new state-of-the-art in few-step video generation. We discuss our modifications to adapt it for the video modality. Furthermore, we propose to simultaneously distill the probability flow of multiple base diffusion models, resulting in a single distilled motion module with broader style compatibility. We are pleased to release our distilled AnimateDiff-Lightning model for the community's use.
- Abstract(参考訳): AnimateDiff-Lightningを光速ビデオ生成用として提案する。
本モデルは, プログレッシブ逆拡散蒸留法を用いて, 数ステップのビデオ生成における新しい最先端技術を実現する。
ビデオのモダリティに適応するための修正について論じる。
さらに,複数のベース拡散モデルの確率フローを同時に蒸留し,より広いスタイルで単一蒸留されたモーションモジュールを提案する。
コミュニティのために蒸留AnimateDiff-Lightningモデルをリリースできてうれしいです。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation [55.424665700339695]
拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。
拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。
本稿では,FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation) を提案する。
論文 参考訳(メタデータ) (2024-12-22T08:19:22Z) - Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。
CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文 参考訳(メタデータ) (2024-12-16T18:59:29Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations [7.604214200457584]
Diffusion Cocktail(ディフュージョン・コックテール、ディフュージョン・コックテール、Diffusion Cocktail、ディフュージョン・コックテール)は、複数の拡散モデル間でスタイルとコンテンツ情報を伝達する訓練のない方法である。
Ditailは生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
論文 参考訳(メタデータ) (2023-12-12T00:53:56Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Improving Diffusion Model Efficiency Through Patching [0.0]
単純なViTスタイルのパッチ変換を追加することで,拡散モデルのサンプリング時間とメモリ使用量を大幅に削減できることがわかった。
我々は,拡散モデル対象の分析とLSUN教会, ImageNet 256, FFHQ 1024における実証実験を通じてアプローチを正当化する。
論文 参考訳(メタデータ) (2022-07-09T18:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。