Fugu-MT 論文翻訳(概要): AnimateDiff-Lightning: Cross-Model Diffusion Distillation

論文の概要: AnimateDiff-Lightning: Cross-Model Diffusion Distillation

arxiv url: http://arxiv.org/abs/2403.12706v1
Date: Tue, 19 Mar 2024 13:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:13:49.812305
Title: AnimateDiff-Lightning: Cross-Model Diffusion Distillation
Title（参考訳）: AnimateDiff-Lightning:クロスモデル拡散蒸留
Authors: Shanchuan Lin, Xiao Yang,
Abstract要約: AnimateDiff-Lightningを光速ビデオ生成用として提案する。本モデルは, プログレッシブ逆拡散蒸留法を用いて, 数ステップのビデオ生成における新しい最先端技術を実現する。
参考スコア（独自算出の注目度）: 3.9571411466709847
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present AnimateDiff-Lightning for lightning-fast video generation. Our model uses progressive adversarial diffusion distillation to achieve new state-of-the-art in few-step video generation. We discuss our modifications to adapt it for the video modality. Furthermore, we propose to simultaneously distill the probability flow of multiple base diffusion models, resulting in a single distilled motion module with broader style compatibility. We are pleased to release our distilled AnimateDiff-Lightning model for the community's use.
Abstract（参考訳）: AnimateDiff-Lightningを光速ビデオ生成用として提案する。本モデルは, プログレッシブ逆拡散蒸留法を用いて, 数ステップのビデオ生成における新しい最先端技術を実現する。ビデオのモダリティに適応するための修正について論じる。さらに,複数のベース拡散モデルの確率フローを同時に蒸留し,より広いスタイルで単一蒸留されたモーションモジュールを提案する。コミュニティのために蒸留AnimateDiff-Lightningモデルをリリースできてうれしいです。

関連論文リスト

One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation [55.424665700339695]
拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。本稿では,FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation) を提案する。
論文参考訳（メタデータ） (2024-12-22T08:19:22Z)
Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。 CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文参考訳（メタデータ） (2024-12-16T18:59:29Z)
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文参考訳（メタデータ） (2024-12-10T18:59:50Z)
Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文参考訳（メタデータ） (2024-12-08T11:36:32Z)
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文参考訳（メタデータ） (2024-10-08T01:06:01Z)
Accelerating Diffusion Models with One-to-Many Knowledge Distillation [35.130782477699704]
我々は,1つの教師拡散モデルを複数の学生拡散モデルに蒸留する1対多の知識蒸留(O2MKD)を導入する。 CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion 実験の結果, O2MKD は従来の知識蒸留法や高速サンプリング法にも適用可能であることが示された。
論文参考訳（メタデータ） (2024-10-05T15:10:04Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations [7.604214200457584]
Diffusion Cocktail(ディフュージョン・コックテール、ディフュージョン・コックテール、Diffusion Cocktail、ディフュージョン・コックテール)は、複数の拡散モデル間でスタイルとコンテンツ情報を伝達する訓練のない方法である。 Ditailは生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
論文参考訳（メタデータ） (2023-12-12T00:53:56Z)
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文参考訳（メタデータ） (2023-12-07T16:26:23Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文参考訳（メタデータ） (2023-11-26T17:48:48Z)
LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。 LLM-grounded Video Diffusion (LVD)を紹介する。以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2023-09-29T17:54:46Z)
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文参考訳（メタデータ） (2022-11-15T17:44:05Z)
Improving Diffusion Model Efficiency Through Patching [0.0]
単純なViTスタイルのパッチ変換を追加することで,拡散モデルのサンプリング時間とメモリ使用量を大幅に削減できることがわかった。我々は,拡散モデル対象の分析とLSUN教会, ImageNet 256, FFHQ 1024における実証実験を通じてアプローチを正当化する。
論文参考訳（メタデータ） (2022-07-09T18:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。