論文の概要: BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.12080v1
- Date: Fri, 12 Dec 2025 23:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.102469
- Title: BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
- Title(参考訳): BAgger:自己回帰ビデオ拡散モデルにおけるドリフト緩和のための後方アグリゲーション
- Authors: Ryan Po, Eric Ryan Chan, Changan Chen, Gordon Wetzstein,
- Abstract要約: モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
- 参考スコア(独自算出の注目度): 50.986189632485285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video models are promising for world modeling via next-frame prediction, but they suffer from exposure bias: a mismatch between training on clean contexts and inference on self-generated frames, causing errors to compound and quality to drift over time. We introduce Backwards Aggregation (BAgger), a self-supervised scheme that constructs corrective trajectories from the model's own rollouts, teaching it to recover from its mistakes. Unlike prior approaches that rely on few-step distillation and distribution-matching losses, which can hurt quality and diversity, BAgger trains with standard score or flow matching objectives, avoiding large teachers and long-chain backpropagation through time. We instantiate BAgger on causal diffusion transformers and evaluate on text-to-video, video extension, and multi-prompt generation, observing more stable long-horizon motion and better visual consistency with reduced drift.
- Abstract(参考訳): 自動回帰ビデオモデルは、次のフレーム予測による世界モデリングを約束していますが、それらは露光バイアスに悩まされています。
モデル自身のロールアウトから修正軌道を構築する自己教師型スキームであるBackwards Aggregation(BAgger)を導入する。
品質と多様性を損なう数段階の蒸留と流通マッチングの損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目標を持つ列車で、大規模な教師や長いチェーンのバックプロパゲーションを避ける。
我々はBAggerを因果拡散変換器でインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価し、より安定した長距離移動とドリフトの低減による視覚的整合性を観察する。
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-10T15:05:59Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。