論文の概要: MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis
- arxiv url: http://arxiv.org/abs/2503.13319v1
- Date: Mon, 17 Mar 2025 15:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:03.414538
- Title: MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis
- Title(参考訳): Magic Distillation:大規模ポートレートFew-Step合成のためのWak-to-Strongビデオ蒸留
- Authors: Shitong Shao, Hongwei Yi, Hanzhong Guo, Tian Ye, Daquan Zhou, Michael Lingelbach, Zhiqiang Xu, Zeke Xie,
- Abstract要約: 本稿では,バニラDMDにおけるトレーニングメモリ不足問題とトレーニング崩壊問題の両方を軽減するために,W2SVD(Weak-to-Strong Video Distillation)を提案する。
実験的に示されたように、W2SVD は標準の Euler, LCM, DMD を超え、1/4ステップのビデオ合成において FID/FVD と VBench の 28 ステップ標準サンプリングも上回っている。
- 参考スコア(独自算出の注目度): 31.2030775314423
- License:
- Abstract: Fine-tuning open-source large-scale VDMs for the portrait video synthesis task can result in significant improvements across multiple dimensions, such as visual quality and natural facial motion dynamics. Despite their advancements, how to achieve step distillation and reduce the substantial computational overhead of large-scale VDMs remains unexplored. To fill this gap, this paper proposes Weak-to-Strong Video Distillation (W2SVD) to mitigate both the issue of insufficient training memory and the problem of training collapse observed in vanilla DMD during the training process. Specifically, we first leverage LoRA to fine-tune the fake diffusion transformer (DiT) to address the out-of-memory issue. Then, we employ the W2S distribution matching to adjust the real DiT's parameter, subtly shifting it toward the fake DiT's parameter. This adjustment is achieved by utilizing the weak weight of the low-rank branch, effectively alleviate the conundrum where the video synthesized by the few-step generator deviates from the real data distribution, leading to inaccuracies in the KL divergence approximation. Additionally, we minimize the distance between the fake data distribution and the ground truth distribution to further enhance the visual quality of the synthesized videos. As experimentally demonstrated on HunyuanVideo, W2SVD surpasses the standard Euler, LCM, DMD and even the 28-step standard sampling in FID/FVD and VBench in 1/4-step video synthesis. The project page is in https://w2svd.github.io/W2SVD/.
- Abstract(参考訳): ポートレートビデオ合成タスクのための細調整されたオープンソースの大規模なVDMは、視覚的品質や自然な顔の動きのダイナミクスなど、複数の次元にわたって大幅に改善される可能性がある。
これらの進歩にもかかわらず、大規模なVDMの段階蒸留と計算オーバーヘッドを大幅に削減する方法は未解明のままである。
このギャップを埋めるため,本研究では,バニラDMDにおけるトレーニングメモリ不足問題とトレーニング崩壊問題の両方を軽減するために,W2SVD(Weak-to-Strong Video Distillation)を提案する。
具体的には、まずLoRAを利用してフェイク拡散変換器(DiT)を微調整し、メモリ外問題に対処する。
次に、W2S分布マッチングを用いて実DiTのパラメータを調整し、偽DiTのパラメータに微調整する。
この調整は、低ランク分岐の弱い重みを利用して、数段生成器によって合成されたビデオが実際のデータ分布から逸脱し、KL分散近似の不正確さを効果的に緩和する。
さらに,合成ビデオの視覚的品質を高めるために,偽データ分布と地上真実分布との距離を最小化する。
HunyuanVideo で実験的に示されたように、W2SVD は標準の Euler, LCM, DMD を上回り、FID/FVD と VBench の 28 段階の標準サンプリングも 1/4 段階のビデオ合成で上回っている。
プロジェクトページはhttps://w2svd.github.io/W2SVD/にある。
関連論文リスト
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model [15.721601713919803]
拡散モデル(DM)は高周波の詳細を生成するのに強力な能力を持つ。
本稿では,拡散モデルをWavelet-Aware Dynamic Transformerに統合した新しいビデオデブロアリングフレームワークVD-Diffを提案する。
提案するVD-Diffは,GoPro,DVD,BSD,Real-World Videoデータセット上でSOTA法より優れている。
論文 参考訳(メタデータ) (2024-08-24T04:13:47Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Deficiency-Aware Masked Transformer for Video Inpainting [22.375503091661873]
DMT (Deficiency-aware Masked Transformer) と呼ばれるデュアルモダリティ互換のインペイントフレームワークを導入する。
本稿では,Deficiency-aware Masked Transformer (DMT) という,両モード互換な塗装フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T16:45:10Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Spatiotemporal Dilated Convolution with Uncertain Matching for
Video-based Crowd Estimation [23.635537663234174]
コンバルネットワークに基づくクラウドカウント問題に対処するためのテンポラルネットワーク(STDNet)。
3Dおよび3D拡張ビデオコンボリューションの分解を利用して、高密度ビデオコンボリューションを強化する。
パッチワイド・レグレッション・ロス(PRL)は、元のピクセルワイド・ロス結果を改善する。
論文 参考訳(メタデータ) (2021-01-29T07:21:33Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。