論文の概要: BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.12080v1
- Date: Fri, 12 Dec 2025 23:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.102469
- Title: BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
- Title(参考訳): BAgger:自己回帰ビデオ拡散モデルにおけるドリフト緩和のための後方アグリゲーション
- Authors: Ryan Po, Eric Ryan Chan, Changan Chen, Gordon Wetzstein,
- Abstract要約: モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
- 参考スコア(独自算出の注目度): 50.986189632485285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video models are promising for world modeling via next-frame prediction, but they suffer from exposure bias: a mismatch between training on clean contexts and inference on self-generated frames, causing errors to compound and quality to drift over time. We introduce Backwards Aggregation (BAgger), a self-supervised scheme that constructs corrective trajectories from the model's own rollouts, teaching it to recover from its mistakes. Unlike prior approaches that rely on few-step distillation and distribution-matching losses, which can hurt quality and diversity, BAgger trains with standard score or flow matching objectives, avoiding large teachers and long-chain backpropagation through time. We instantiate BAgger on causal diffusion transformers and evaluate on text-to-video, video extension, and multi-prompt generation, observing more stable long-horizon motion and better visual consistency with reduced drift.
- Abstract(参考訳): 自動回帰ビデオモデルは、次のフレーム予測による世界モデリングを約束していますが、それらは露光バイアスに悩まされています。
モデル自身のロールアウトから修正軌道を構築する自己教師型スキームであるBackwards Aggregation(BAgger)を導入する。
品質と多様性を損なう数段階の蒸留と流通マッチングの損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目標を持つ列車で、大規模な教師や長いチェーンのバックプロパゲーションを避ける。
我々はBAggerを因果拡散変換器でインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価し、より安定した長距離移動とドリフトの低減による視覚的整合性を観察する。
関連論文リスト
- Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals [0.0]
ゴールドリフトの程度と原因を更新した特徴付けを提供する。
模擬ストックトレーディング環境における最先端モデルのドリフトについて検討する。
その結果,ドリフトの挙動は急激な変動と不整合であり,それに続く命令階層と相関が低いことが判明した。
論文 参考訳(メタデータ) (2026-03-03T18:50:59Z) - LIVE: Long-horizon Interactive Video World Modeling [39.52605866460851]
Long-Horizon Interactive Video world modElは、新しいサイクル一貫性の目的を通じて境界付きエラー蓄積を実行する。
Liveはロングホライゾンベンチマークで最先端のパフォーマンスを達成し、ロールアウト期間のトレーニングを超えて、安定した高品質のビデオを生成する。
論文 参考訳(メタデータ) (2026-02-03T17:10:03Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-10T15:05:59Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。