論文の概要: Transition Matching Distillation for Fast Video Generation
- arxiv url: http://arxiv.org/abs/2601.09881v1
- Date: Wed, 14 Jan 2026 21:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.904017
- Title: Transition Matching Distillation for Fast Video Generation
- Title(参考訳): 高速ビデオ生成のための遷移マッチング蒸留
- Authors: Weili Nie, Julius Berner, Nanye Ma, Chao Liu, Saining Xie, Arash Vahdat,
- Abstract要約: 本稿では,ビデオ拡散モデルを効率の良い数ステップ生成器に蒸留するための新しいフレームワークであるTransition Matching Distillation (TMD)を提案する。
TMDは拡散モデルの多段階認知軌道と数段階の確率遷移過程とを一致させる。
TMDは、生成速度と視覚的品質の間の柔軟性と強力なトレードオフを提供する。
- 参考スコア(独自算出の注目度): 63.1049790376783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large video diffusion and flow models have achieved remarkable success in high-quality video generation, but their use in real-time interactive applications remains limited due to their inefficient multi-step sampling process. In this work, we present Transition Matching Distillation (TMD), a novel framework for distilling video diffusion models into efficient few-step generators. The central idea of TMD is to match the multi-step denoising trajectory of a diffusion model with a few-step probability transition process, where each transition is modeled as a lightweight conditional flow. To enable efficient distillation, we decompose the original diffusion backbone into two components: (1) a main backbone, comprising the majority of early layers, that extracts semantic representations at each outer transition step; and (2) a flow head, consisting of the last few layers, that leverages these representations to perform multiple inner flow updates. Given a pretrained video diffusion model, we first introduce a flow head to the model, and adapt it into a conditional flow map. We then apply distribution matching distillation to the student model with flow head rollout in each transition step. Extensive experiments on distilling Wan2.1 1.3B and 14B text-to-video models demonstrate that TMD provides a flexible and strong trade-off between generation speed and visual quality. In particular, TMD outperforms existing distilled models under comparable inference costs in terms of visual fidelity and prompt adherence. Project page: https://research.nvidia.com/labs/genair/tmd
- Abstract(参考訳): 大規模なビデオ拡散とフローモデルは、高品質なビデオ生成において顕著な成功を収めてきたが、その非効率なマルチステップサンプリングプロセスのため、リアルタイムインタラクティブアプリケーションでの使用は制限されている。
本稿では,ビデオ拡散モデルを効率の良い数ステップ生成器に蒸留する新しいフレームワークであるTransition Matching Distillation (TMD)を提案する。
TMDの中心的な考え方は、拡散モデルの多段階分解軌道と数段階の確率遷移過程とを一致させ、各遷移を軽量な条件流としてモデル化することである。
本研究では, 従来の拡散バックボーンを, 1) 初期層の大部分を構成する主バックボーン, および(2) 最後の数層からなるフローヘッド, および, これらの表現を利用して複数の内部フロー更新を行う。
事前訓練されたビデオ拡散モデルから,まずモデルにフローヘッドを導入し,条件付きフローマップに適応させる。
次に,各遷移段階におけるフローヘッドロールアウトを伴う学生モデルに分布整合蒸留を適用した。
Wan2.1 1.3B と 14B のテキスト・ツー・ビデオモデルの蒸留実験により、TMD は生成速度と視覚的品質の間の柔軟性と強いトレードオフを提供することが示された。
特に、TMDは、視覚的忠実度と即効性の観点から、同等の推論コストで既存の蒸留モデルより優れている。
プロジェクトページ: https://research.nvidia.com/labs/genair/tmd
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Accelerating Diffusion Models with One-to-Many Knowledge Distillation [35.130782477699704]
我々は,1つの教師拡散モデルを複数の学生拡散モデルに蒸留する1対多の知識蒸留(O2MKD)を導入する。
CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion 実験の結果, O2MKD は従来の知識蒸留法や高速サンプリング法にも適用可能であることが示された。
論文 参考訳(メタデータ) (2024-10-05T15:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。