論文の概要: Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity
- arxiv url: http://arxiv.org/abs/2604.07402v1
- Date: Wed, 08 Apr 2026 09:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.450595
- Title: Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity
- Title(参考訳): 表現連続性を考慮した局所最適化による自己回帰映像生成モデルの高速化
- Authors: Yucheng Zhou, Jianbing Shen,
- Abstract要約: 本研究では,実証分析による自己回帰映像生成モデルの訓練を高速化する手法を検討する。
その結果,少ないビデオフレームでのトレーニングではトレーニング時間が大幅に短縮される一方で,エラーの蓄積が悪化し,生成したビデオに矛盾が生じることが判明した。
リプシッツ連続性に触発されて、生成されたビデオの一貫性を改善するためにRepresentation Continuity(ReCo)戦略を提案する。
- 参考スコア(独自算出の注目度): 57.83511884904928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models have shown superior performance and efficiency in image generation, but remain constrained by high computational costs and prolonged training times in video generation. In this study, we explore methods to accelerate training for autoregressive video generation models through empirical analyses. Our results reveal that while training on fewer video frames significantly reduces training time, it also exacerbates error accumulation and introduces inconsistencies in the generated videos. To address these issues, we propose a Local Optimization (Local Opt.) method, which optimizes tokens within localized windows while leveraging contextual information to reduce error propagation. Inspired by Lipschitz continuity, we propose a Representation Continuity (ReCo) strategy to improve the consistency of generated videos. ReCo utilizes continuity loss to constrain representation changes, improving model robustness and reducing error accumulation. Extensive experiments on class- and text-to-video datasets demonstrate that our approach achieves superior performance to the baseline while halving the training cost without sacrificing quality.
- Abstract(参考訳): 自己回帰モデルは、画像生成において優れた性能と効率を示すが、高い計算コストとビデオ生成における長時間のトレーニング時間に制約されている。
本研究では,実証分析による自己回帰映像生成モデルの訓練を高速化する手法を検討する。
その結果,少ないビデオフレームでのトレーニングではトレーニング時間が大幅に短縮される一方で,エラーの蓄積が悪化し,生成したビデオに矛盾が生じることが判明した。
これらの問題に対処するため,ローカルウィンドウ内のトークンを最適化し,コンテキスト情報を活用してエラーの伝搬を低減するローカル最適化(ローカルオプト)手法を提案する。
リプシッツ連続性に触発されて、生成されたビデオの一貫性を改善するためにRepresentation Continuity(ReCo)戦略を提案する。
ReCoは連続損失を利用して表現変更を制約し、モデルの堅牢性を改善し、エラーの蓄積を減らす。
クラスおよびテキスト・トゥ・ビデオデータセットの大規模な実験により,本手法は品質を犠牲にすることなくトレーニングコストを半減しながら,ベースラインよりも優れた性能を実現することが示された。
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Video Generation Models Are Good Latent Reward Models [35.261036369253524]
リワードフィードバック学習(ReFL)は、画像生成を人間の好みに合わせるのに有効であることが証明されている。
既存のビデオ報酬モデルは、ピクセル空間入力用に設計された視覚言語モデルに依存している。
Process Reward Feedback Learning(PRFL)は、遅延空間で完全に好みの最適化を行うフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T16:14:18Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。