論文の概要: Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2506.08009v1
- Date: Mon, 09 Jun 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.115571
- Title: Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
- Title(参考訳): 自己強制: 自動回帰ビデオ拡散におけるトレインテストギャップの橋渡し
- Authors: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman,
- Abstract要約: 本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
- 参考スコア(独自算出の注目度): 70.4360995984905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
- Abstract(参考訳): 本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地平線で訓練されたモデルは、推論中に自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
接地的コンテキストフレームに基づいて将来のフレームを識別する従来の方法とは異なり、自己強制条件はトレーニング中にキー値(KV)キャッシングによる自己回帰ロールアウトを実行することで、以前の自己生成出力に対して各フレームを生成する。
この戦略は、従来のフレーム単位の目的にのみ依存するのではなく、生成シーケンス全体の品質を直接評価する、ビデオレベルでの全体的損失による監視を可能にする。
トレーニング効率を確保するために,数ステップの拡散モデルと確率的勾配緩和戦略を用い,計算コストと性能を効果的にバランスさせる。
さらに、効率的な自動回帰ビデオ外挿を可能にするローリングKVキャッシュ機構を導入する。
大規模な実験により,提案手法は1つのGPU上での低秒レイテンシでリアルタイムなストリーミングビデオ生成を実現するとともに,極めて遅い非因果拡散モデルの生成品質をマッチングあるいは超過することを示した。
プロジェクトウェブサイト: http://self-forcing.github.io/
関連論文リスト
- Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation [35.96336774165454]
既存の大規模ビデオ生成モデルは計算集約的である。
本稿では,事前学習した遅延ビデオ拡散モデルをリアルタイムな対話型ビデオ生成器に変換するための自己回帰逆行後訓練を提案する。
モデルでは1つのニューラルファンクション評価を用いて1回に1つの潜在フレームを自動回帰的に生成する。
論文 参考訳(メタデータ) (2025-06-11T03:04:23Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation [6.047856576139978]
我々は,新しい自己教師型時系列事前学習フレームワークである textbfTimeDART を提案する。
TimeDARTは2つの強力な生成パラダイムを統合し、より伝達可能な表現を学ぶ。
時系列予測と分類のための公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-08T06:08:33Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。