論文の概要: Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
- arxiv url: http://arxiv.org/abs/2604.03118v1
- Date: Fri, 03 Apr 2026 15:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.515835
- Title: Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation
- Title(参考訳): 塩:高速ビデオ生成のためのキャッシュ・アウェア・トレーニングと自己整合性分布マッチング
- Authors: Xingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang,
- Abstract要約: 軌道式整合蒸留(DMD)は、鋭いモード探索サンプルを回収することができるが、その局所的な訓練信号は、時間経過で更新がどのように構成されるかを明確に定めていない。
本稿では,連続的なデノナイジング更新の終端一致合成を明示的に規則化する自己持続分布マッチング蒸留(SC-DMD)を提案する。
- 参考スコア(独自算出の注目度): 27.698320788533405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed \textbf{Salt}, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at \href{https://github.com/XingtongGe/Salt}{https://github.com/XingtongGe/Salt}.
- Abstract(参考訳): ビデオ生成モデルを非常に低い推論予算(例:2--4 NFE)に拡張することは、リアルタイムデプロイメントには不可欠だが、それでも難しい。
トラジェクトリスタイルの整合蒸留は、複雑なビデオ力学の下では保守的になり、過度に滑らかな外観と弱い動きをもたらす。
分布整合蒸留(DMD)は、鋭いモード探索サンプルを回収することができるが、その局所的な訓練信号は、更新が時間経過でどのように構成されるかを明確に定めておらず、構成されたロールアウトはドリフトしがちである。
この課題を克服するために,連続的なデノナイジング更新の終端一致構成を明示的に正規化する自己持続分布マッチング蒸留(SC-DMD)を提案する。
リアルタイム自動回帰ビデオ生成では、KVキャッシュを品質パラメータ化条件として扱い、キャッシュ・ディストリビューション・アウェアトレーニングを提案する。
SC-DMDをマルチステップロールアウトに応用し、低品質な出力を高品質な参照に向けて制御するキャッシュ条件の特徴アライメント目的を導入する。
非自己回帰的バックボーン(例, Wan~2.1)と自己回帰的リアルタイムパラダイム(例, Self Forcing)の両方について広範な実験を行った結果,本手法は,多様なKV-cacheメモリ機構との互換性を維持しつつ,低NFEビデオ生成品質を継続的に改善する。
ソースコードは \href{https://github.com/XingtongGe/Salt}{https://github.com/XingtongGe/Salt} で公開される。
関連論文リスト
- Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep [37.62908191585867]
HetCacheは、ビデオ・ツー・ビデオ(MV2V)の生成と編集のためのトレーニング不要な拡散加速フレームワークである。
編集の一貫性と忠実さを維持しながら、冗長な注意操作を低減する。
実験によると、HetCacheは2.67$times$レイテンシのスピードアップやFLOPの削減など、目立った加速を実現している。
論文 参考訳(メタデータ) (2026-03-25T12:53:31Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。