論文の概要: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2506.03123v2
- Date: Wed, 06 Aug 2025 03:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.808832
- Title: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
- Title(参考訳): 効率・高画質ビデオ生成のためのデュアルスペック整合性モデル
- Authors: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu,
- Abstract要約: 本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
- 参考スコア(独自算出の注目度): 57.33788820909211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models have achieved remarkable results in video synthesis but require iterative denoising steps, leading to substantial computational overhead. Consistency Models have made significant progress in accelerating diffusion models. However, directly applying them to video diffusion models often results in severe degradation of temporal consistency and appearance details. In this paper, by analyzing the training dynamics of Consistency Models, we identify a key conflicting learning dynamics during the distillation process: there is a significant discrepancy in the optimization gradients and loss contributions across different timesteps. This discrepancy prevents the distilled student model from achieving an optimal state, leading to compromised temporal consistency and degraded appearance details. To address this issue, we propose a parameter-efficient \textbf{Dual-Expert Consistency Model~(DCM)}, where a semantic expert focuses on learning semantic layout and motion, while a detail expert specializes in fine detail refinement. Furthermore, we introduce Temporal Coherence Loss to improve motion consistency for the semantic expert and apply GAN and Feature Matching Loss to enhance the synthesis quality of the detail expert.Our approach achieves state-of-the-art visual quality with significantly reduced sampling steps, demonstrating the effectiveness of expert specialization in video diffusion model distillation. Our code and models are available at \href{https://github.com/Vchitect/DCM}{https://github.com/Vchitect/DCM}.
- Abstract(参考訳): 拡散モデルはビデオ合成において顕著な結果を得たが、反復的なデノゲーションステップを必要とするため、かなりの計算オーバーヘッドが生じる。
一貫性モデルは拡散モデルの加速に大きな進歩をもたらした。
しかし、ビデオ拡散モデルに直接適用すると、時間的一貫性と外観の細部が著しく低下する。
本稿では, コンシステンシーモデルのトレーニング力学を解析することにより, 蒸留過程における重要な相反する学習力学を同定する。
この相違により、蒸留された学生モデルが最適状態に達するのを防ぎ、時間的一貫性が損なわれ、外観が劣化する。
この問題に対処するために, セマンティック・エキスパートがセマンティック・レイアウトと動作の学習に焦点をあてるパラメータ効率の高い「textbf{Dual-Expert Consistency Model~(DCM)}を提案する。
さらに,映像拡散モデル蒸留における専門家の専門化の有効性を実証し,時間的コヒーレンス・ロスを導入して詳細専門家の合成品質を向上させるとともに,時間的コヒーレンス・ロスを導入し,映像拡散モデル蒸留における専門家の専門化の有効性を実証した。
私たちのコードとモデルは、 \href{https://github.com/Vchitect/DCM}{https://github.com/Vchitect/DCM} で利用可能です。
関連論文リスト
- VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。
細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Taming Consistency Distillation for Accelerated Human Image Animation [47.63111489003292]
DanceLCMは、たった2-4ステップで、最先端のビデオ拡散モデルに匹敵する結果を得る。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-04-15T12:44:53Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。