論文の概要: Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2506.08009v1
- Date: Mon, 09 Jun 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.115571
- Title: Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
- Title(参考訳): 自己強制: 自動回帰ビデオ拡散におけるトレインテストギャップの橋渡し
- Authors: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman,
- Abstract要約: 本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
- 参考スコア(独自算出の注目度): 70.4360995984905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
- Abstract(参考訳): 本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地平線で訓練されたモデルは、推論中に自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
接地的コンテキストフレームに基づいて将来のフレームを識別する従来の方法とは異なり、自己強制条件はトレーニング中にキー値(KV)キャッシングによる自己回帰ロールアウトを実行することで、以前の自己生成出力に対して各フレームを生成する。
この戦略は、従来のフレーム単位の目的にのみ依存するのではなく、生成シーケンス全体の品質を直接評価する、ビデオレベルでの全体的損失による監視を可能にする。
トレーニング効率を確保するために,数ステップの拡散モデルと確率的勾配緩和戦略を用い,計算コストと性能を効果的にバランスさせる。
さらに、効率的な自動回帰ビデオ外挿を可能にするローリングKVキャッシュ機構を導入する。
大規模な実験により,提案手法は1つのGPU上での低秒レイテンシでリアルタイムなストリーミングビデオ生成を実現するとともに,極めて遅い非因果拡散モデルの生成品質をマッチングあるいは超過することを示した。
プロジェクトウェブサイト: http://self-forcing.github.io/
関連論文リスト
- Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。