論文の概要: End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
- arxiv url: http://arxiv.org/abs/2512.15702v1
- Date: Wed, 17 Dec 2025 18:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.114968
- Title: End-to-End Training for Autoregressive Video Diffusion via Self-Resampling
- Title(参考訳): 自己修復による自己回帰的ビデオ拡散のためのエンドツーエンドトレーニング
- Authors: Yuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin,
- Abstract要約: 自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 63.84672807009907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
最近の研究はポストトレーニングを通じてこの問題に対処しているが、通常は双方向の教師モデルやオンラインの差別化に頼っている。
エンドツーエンドのソリューションを実現するために,教師なしのフレームワークであるResampling Forcingを導入する。
我々のアプローチの中心は、トレーニング中の履歴フレーム上の推論時間モデルエラーをシミュレートする自己サンプリング方式である。
これらの劣化した歴史に基づいて、スパース因果マスクは、フレームレベルの拡散損失を伴う平行トレーニングを可能にしながら、時間的因果関係を強制する。
さらに,パラメータフリーな手法であるヒストリルーティングを導入し,各クエリに最も関連性の高いヒストリフレームを動的に検索する。
実験により,本手法は蒸留ベースラインに匹敵する性能を示すとともに,ネイティブ長のトレーニングによる長編ビデオの時間的一貫性に優れることを示した。
関連論文リスト
- BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文 参考訳(メタデータ) (2025-12-12T23:02:02Z) - EvDiff: High Quality Video with an Event Camera [77.07279880903009]
イベントからの強度画像の再構成は、絶対的な明るさのあいまいさが原因で、非常に不適切な作業である。
EvDiffはイベントベースの拡散モデルであり、高品質なビデオを作成するための代理トレーニングフレームワークに従う。
論文 参考訳(メタデータ) (2025-11-21T18:49:18Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-10T15:05:59Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Lifelong Learning of Video Diffusion Models From a Single Video Stream [21.20227667908252]
この研究は、単一のビデオストリームから自動回帰ビデオ拡散モデルを示す。
Lifelong Bouncing Driveは、連続したデータセットと300万フレームで構成されている。
論文 参考訳(メタデータ) (2024-06-07T10:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。