論文の概要: DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2506.03123v1
- Date: Tue, 03 Jun 2025 17:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.97629
- Title: DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- Title(参考訳): DCM:高精細・高精細ビデオ生成のためのデュアルスペクトル整合性モデル
- Authors: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu,
- Abstract要約: 本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
- 参考スコア(独自算出の注目度): 57.33788820909211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models have achieved remarkable results in video synthesis but require iterative denoising steps, leading to substantial computational overhead. Consistency Models have made significant progress in accelerating diffusion models. However, directly applying them to video diffusion models often results in severe degradation of temporal consistency and appearance details. In this paper, by analyzing the training dynamics of Consistency Models, we identify a key conflicting learning dynamics during the distillation process: there is a significant discrepancy in the optimization gradients and loss contributions across different timesteps. This discrepancy prevents the distilled student model from achieving an optimal state, leading to compromised temporal consistency and degraded appearance details. To address this issue, we propose a parameter-efficient \textbf{Dual-Expert Consistency Model~(DCM)}, where a semantic expert focuses on learning semantic layout and motion, while a detail expert specializes in fine detail refinement. Furthermore, we introduce Temporal Coherence Loss to improve motion consistency for the semantic expert and apply GAN and Feature Matching Loss to enhance the synthesis quality of the detail expert.Our approach achieves state-of-the-art visual quality with significantly reduced sampling steps, demonstrating the effectiveness of expert specialization in video diffusion model distillation. Our code and models are available at \href{https://github.com/Vchitect/DCM}{https://github.com/Vchitect/DCM}.
- Abstract(参考訳): 拡散モデルはビデオ合成において顕著な結果を得たが、反復的なデノゲーションステップを必要とするため、かなりの計算オーバーヘッドが生じる。
一貫性モデルは拡散モデルの加速に大きな進歩をもたらした。
しかし、ビデオ拡散モデルに直接適用すると、時間的一貫性と外観の細部が著しく低下する。
本稿では, コンシステンシーモデルのトレーニング力学を解析することにより, 蒸留過程における重要な相反する学習力学を同定する。
この相違により、蒸留された学生モデルが最適状態に達するのを防ぎ、時間的一貫性が損なわれ、外観が劣化する。
この問題に対処するために, セマンティック・エキスパートがセマンティック・レイアウトと動作の学習に焦点をあてるパラメータ効率の高い「textbf{Dual-Expert Consistency Model~(DCM)}を提案する。
さらに,映像拡散モデル蒸留における専門家の専門化の有効性を実証し,時間的コヒーレンス・ロスを導入して詳細専門家の合成品質を向上させるとともに,時間的コヒーレンス・ロスを導入し,映像拡散モデル蒸留における専門家の専門化の有効性を実証した。
私たちのコードとモデルは、 \href{https://github.com/Vchitect/DCM}{https://github.com/Vchitect/DCM} で利用可能です。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。