論文の概要: Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2602.14027v1
- Date: Sun, 15 Feb 2026 07:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.605918
- Title: Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation
- Title(参考訳): 列車ショート, 推論長: 自動回帰ビデオ生成のための訓練不要水平延長
- Authors: Jia Li, Xiaomeng Fu, Xurui Peng, Weifeng Chen, Youwei Zheng, Tianyu Zhao, Jiexi Wang, Fangmin Chen, Xing Wang, Hayden Kwok-Hay So,
- Abstract要約: textbfFLEX(textbfFrequency-aware textbfLength textbfEXtension)は、トレーニング不要な推論時間フレームワークである。
短期トレーニングと長期推論のギャップを埋める。
4分間のスケールで一貫した動的ビデオ合成をサポートする。
- 参考スコア(独自算出の注目度): 15.110494847628212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models have emerged as a scalable paradigm for long video generation. However, they often suffer from severe extrapolation failure, where rapid error accumulation leads to significant temporal degradation when extending beyond training horizons. We identify that this failure primarily stems from the \textit{spectral bias} of 3D positional embeddings and the lack of \textit{dynamic priors} in noise sampling. To address these issues, we propose \textbf{FLEX} (\textbf{F}requency-aware \textbf{L}ength \textbf{EX}tension), a training-free inference-time framework that bridges the gap between short-term training and long-term inference. FLEX introduces Frequency-aware RoPE Modulation to adaptively interpolate under-trained low-frequency components while extrapolating high-frequency ones to preserve multi-scale temporal discriminability. This is integrated with Antiphase Noise Sampling (ANS) to inject high-frequency dynamic priors and Inference-only Attention Sink to anchor global structure. Extensive evaluations on VBench demonstrate that FLEX significantly outperforms state-of-the-art models at $6\times$ extrapolation (30s duration) and matches the performance of long-video fine-tuned baselines at $12\times$ scale (60s duration). As a plug-and-play augmentation, FLEX seamlessly integrates into existing inference pipelines for horizon extension. It effectively pushes the generation limits of models such as LongLive, supporting consistent and dynamic video synthesis at a 4-minute scale. Project page is available at \href{https://ga-lee.github.io/FLEX_demo}{https://ga-lee.github.io/FLEX}.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは、長いビデオ生成のためのスケーラブルなパラダイムとして登場した。
しかし、それらはしばしば深刻な外挿障害に悩まされ、急激なエラーの蓄積は、訓練地平線を越えて拡張する際の時間的劣化を著しく引き起こす。
この障害は主に3次元位置埋め込みの「textit{spectral bias」とノイズサンプリングにおける「textit{dynamic priors」の欠如に起因する。
これらの問題に対処するため,短期的なトレーニングと長期的推論のギャップを埋めるトレーニング不要な推論時間フレームワークである \textbf{FLEX} (\textbf{F}requency-aware \textbf{L}ength \textbf{EX}tension) を提案する。
FLEXは周波数対応のRoPE変調を導入し、低周波成分を適応的に補間し、高周波成分を外挿してマルチスケールの時間的識別性を維持する。
これは、アンチフェーズノイズサンプリング(ANS)と統合され、高周波のダイナミックプリエントを注入し、推論のみのアテンションシンクにより、グローバル構造をアンカーする。
VBenchの広範囲な評価によると、FLEXは6\times$外挿(30秒間)で最先端モデルを大幅に上回り、12\times$スケール(60秒間)で長時間の微調整ベースラインのパフォーマンスに匹敵する。
プラグインとプレイの拡張として、FLEXは水平線拡張のための既存の推論パイプラインにシームレスに統合される。
これは、LongLiveのようなモデルの生成限界を効果的に押し上げ、一貫性とダイナミックなビデオ合成を4分間のスケールでサポートする。
プロジェクトページは \href{https://ga-lee.github.io/FLEX_demo}{https://ga-lee.github.io/FLEX} で公開されている。
関連論文リスト
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation [16.34443339642213]
textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
論文 参考訳(メタデータ) (2025-12-29T11:18:24Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference [5.146388234814547]
長いビデオはしばしば現代の言語モデルのトークン予算を超え、厳しいコンテキスト制限とレイテンシの問題に繋がる。
本稿では,時間的に静的なパッチを識別・プルーニングすることで,ビデオ中のトークンの冗長性を低減できる簡易なプラグイン・アンド・プレイ方式であるEfficient Video Sampling (EVS)を紹介する。
EVSは意味的忠実性を維持しながらトークン数を大幅に削減し、より高速な推論とより長い入力シーケンスを可能にする。
論文 参考訳(メタデータ) (2025-10-16T12:34:38Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。