論文の概要: LoL: Longer than Longer, Scaling Video Generation to Hour
- arxiv url: http://arxiv.org/abs/2601.16914v1
- Date: Fri, 23 Jan 2026 17:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.780942
- Title: LoL: Longer than Longer, Scaling Video Generation to Hour
- Title(参考訳): LoL:ビデオの再生時間を1時間に短縮する
- Authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh,
- Abstract要約: この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
- 参考スコア(独自算出の注目度): 50.945885467651216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.
- Abstract(参考訳): 近年の長期ビデオ生成の研究は、双方向から自己回帰モデルに移行しているが、これらの手法は一般的にエラーの蓄積と長期的一貫性の喪失に悩まされている。
この性能低下を緩和するためにアテンションシンクフレームが導入されたが、それらはしばしばシンク崩壊と呼ばれる臨界故障モードを誘導し、生成されたコンテンツはシンクフレームに繰り返し復帰し、突然のシーンリセットと循環的な動きパターンをもたらす。
解析の結果,流し込み崩壊はロータリー・ポジション・エンベディング(RoPE)の周期構造と,現生モデルでよく見られるマルチヘッド・アテンション機構の相違に起因していることが明らかとなった。
そこで本研究では,マルチヘッドのRoPEジッタを導入し,その動作を効果的に抑制する軽量なトレーニングフリーアプローチを提案する。
大規模な実験により, 生成品質を保ちながら, シンク崩壊を軽減できることが判明した。
我々の知る限りでは、この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初の実演を実現している。
このロバスト性を示す例として、我々は最大12時間までの連続ビデオを生成し、これは私たちの知る限り、ストリーミングビデオ生成において最も長期にわたって実証された結果の1つである。
関連論文リスト
- Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression [36.99018442740971]
映像拡散にStreamingLLMスタイルのアテンションシンクを鼻で適用すると、忠実度が低下し、動きが停滞することがわかった。
我々は、微調整なしでこれに対応する2つのトレーニング不要なメカニズムからなるDeep Forcingを紹介した。
以上の結果から,トレーニングフリーなKV-cache管理は,自動回帰ストリーミング長ビデオ生成のためのトレーニングベースアプローチと一致するか,あるいは超える可能性があることが示唆された。
論文 参考訳(メタデータ) (2025-12-04T18:46:44Z) - Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文 参考訳(メタデータ) (2025-09-26T02:47:05Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。