論文の概要: Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation
- arxiv url: http://arxiv.org/abs/2406.06890v2
- Date: Sat, 26 Oct 2024 22:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:13:59.717191
- Title: Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation
- Title(参考訳): 運動整合性モデル: 遠方運動提示蒸留による映像拡散の加速
- Authors: Yuanhao Zhai, Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Chung-Ching Lin, David Doermann, Junsong Yuan, Lijuan Wang,
- Abstract要約: 画像拡散蒸留は, 非常に少ないサンプリングステップで高忠実度生成を実現する。
これらのテクニックをビデオ拡散に直接適用すると、公開ビデオデータセットの視覚的品質が制限されるため、フレーム品質が不満足になることが多い。
本研究の目的は,高画質の画像データを用いて,フレームの外観を改善しながらビデオ拡散蒸留を改善することである。
- 参考スコア(独自算出の注目度): 134.22372190926362
- License:
- Abstract: Image diffusion distillation achieves high-fidelity generation with very few sampling steps. However, applying these techniques directly to video diffusion often results in unsatisfactory frame quality due to the limited visual quality in public video datasets. This affects the performance of both teacher and student video diffusion models. Our study aims to improve video diffusion distillation while improving frame appearance using abundant high-quality image data. We propose motion consistency model (MCM), a single-stage video diffusion distillation method that disentangles motion and appearance learning. Specifically, MCM includes a video consistency model that distills motion from the video teacher model, and an image discriminator that enhances frame appearance to match high-quality image data. This combination presents two challenges: (1) conflicting frame learning objectives, as video distillation learns from low-quality video frames while the image discriminator targets high-quality images; and (2) training-inference discrepancies due to the differing quality of video samples used during training and inference. To address these challenges, we introduce disentangled motion distillation and mixed trajectory distillation. The former applies the distillation objective solely to the motion representation, while the latter mitigates training-inference discrepancies by mixing distillation trajectories from both the low- and high-quality video domains. Extensive experiments show that our MCM achieves the state-of-the-art video diffusion distillation performance. Additionally, our method can enhance frame quality in video diffusion models, producing frames with high aesthetic scores or specific styles without corresponding video data.
- Abstract(参考訳): 画像拡散蒸留は, 非常に少ないサンプリングステップで高忠実度生成を実現する。
しかし、これらの手法をビデオ拡散に直接適用すると、公開ビデオデータセットの視覚的品質が制限されるため、フレーム品質が不満足になることが多い。
これは教師と生徒のビデオ拡散モデルの両方のパフォーマンスに影響を与える。
本研究の目的は,高画質の画像データを用いて,フレームの外観を改善しながらビデオ拡散蒸留を改善することである。
動きと外観学習を両立させる一段ビデオ拡散蒸留法である動き整合モデル(MCM)を提案する。
具体的には、ビデオ教師モデルから動きを蒸留するビデオ一貫性モデルと、高品質な画像データに合うようにフレームの外観を向上する画像識別装置とを含む。
この組み合わせは,(1)低品質の映像フレームからビデオ蒸留が学習する際のフレーム学習目標の相違,(2)トレーニングや推論で使用されるビデオサンプルの品質の違いによるトレーニングと推論の相違,の2つの課題を提示する。
これらの課題に対処するために, 遠絡型運動蒸留と混合軌跡蒸留を導入する。
前者は運動表現のみに蒸留目標を適用し、後者は低品質ビデオドメインと高画質ビデオドメインの両方から蒸留軌跡を混合することによりトレーニング推論の相違を緩和する。
大規模な実験により,MCMは最先端のビデオ拡散蒸留性能を達成できた。
さらに,本手法は映像拡散モデルのフレーム品質を向上させることができ,高い美的スコアや特定のスタイルのフレームを対応するビデオデータなしで生成することができる。
関連論文リスト
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [29.77646091911169]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。