論文の概要: Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation
- arxiv url: http://arxiv.org/abs/2603.21366v1
- Date: Sun, 22 Mar 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.381209
- Title: Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation
- Title(参考訳): RelaxForcing: 一貫性のある長時間ビデオ生成のためのKVメモリの緩和
- Authors: Zengqun Zhao, Yanzuo Lu, Ziquan Liu, Jifei Song, Jiankang Deng, Ioannis Patras,
- Abstract要約: オートレグレッシブ(AR)ビデオ拡散は,近年,長大なビデオ生成において有望なパラダイムとして浮上している。
時間的劣化が進行しているため, 生成から微小スケールの地平線への延長は依然として困難であることを示す。
本稿では,AR拡散のための時間記憶機構であるRelax Forcingを紹介する。
- 参考スコア(独自算出の注目度): 73.84423888025171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) video diffusion has recently emerged as a promising paradigm for long video generation, enabling causal synthesis beyond the limits of bidirectional models. To address training-inference mismatch, a series of self-forcing strategies have been proposed to improve rollout stability by conditioning the model on its own predictions during training. While these approaches substantially mitigate exposure bias, extending generation to minute-scale horizons remains challenging due to progressive temporal degradation. In this work, we show that this limitation is not primarily caused by insufficient memory, but by how temporal memory is utilised during inference. Through empirical analysis, we find that increasing memory does not consistently improve long-horizon generation, and that the temporal placement of historical context significantly influences motion dynamics while leaving visual quality largely unchanged. These findings suggest that temporal memory should not be treated as a homogeneous buffer. Motivated by this insight, we introduce Relax Forcing, a structured temporal memory mechanism for AR diffusion. Instead of attending to the dense generated history, Relax Forcing decomposes temporal context into three functional roles: Sink for global stability, Tail for short-term continuity, and dynamically selected History for structural motion guidance, and selectively incorporates only the most relevant past information. This design mitigates error accumulation during extrapolation while preserving motion evolution. Experiments on VBench-Long demonstrate that Relax Forcing improves motion dynamics and overall temporal consistency while reducing attention overhead. Our results suggest that structured temporal memory is essential for scalable long video generation, complementing existing forcing-based training strategies.
- Abstract(参考訳): 自己回帰(AR)ビデオ拡散は、近年、双方向モデルの限界を超えた因果合成を可能にする、長いビデオ生成のための有望なパラダイムとして出現している。
トレーニングと推論のミスマッチに対処するために、トレーニング中にモデルを自身の予測に条件付けすることでロールアウト安定性を向上させるための一連の自己強制戦略が提案されている。
これらのアプローチは露光バイアスを大幅に軽減するが、進行的な時間的劣化のため、生成から微小スケールの地平線への延長は困難である。
本研究では、この制限は、主にメモリ不足によるものではなく、推論時に時間記憶がどのように利用されるかによって生じるものであることを示す。
経験的分析により、記憶の増大は長軸生成を継続的に改善するものではなく、歴史的文脈の時間的配置が視覚的品質を大きく変化させながら運動力学に著しく影響を及ぼすことが判明した。
これらの結果から,時間記憶は同種バッファとして扱うべきではないことが示唆された。
本稿では,AR拡散のための時間記憶機構であるRelax Forcingを紹介する。
Relax Forcingは、高密度に生成された歴史に参画する代わりに、時間的文脈を3つの機能的役割に分解する: 世界的安定性のためのシンク、短期的連続性のためのタイル、構造的動きのガイダンスのための動的選択されたヒストリー、そして最も関係のある過去の情報のみを選択的に組み込む。
この設計は、運動の進化を保ちながら外挿中の誤差蓄積を緩和する。
VBench-Longの実験では、Relax Forcingは注意のオーバーヘッドを低減しつつ、動きのダイナミクスと全体的な時間的一貫性を改善している。
この結果から,構造化時間記憶は,既存の強制型トレーニング戦略を補完するスケーラブルな長時間ビデオ生成に不可欠であることが示唆された。
関連論文リスト
- LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive
Learning [42.22064610886404]
予測学習の一般的なフレームワークとして,エンコーダとデコーダがフレーム内の特徴をキャプチャし,中間時間モジュールがフレーム間の依存関係をキャッチする手法を提案する。
時間的モジュールを並列化するために,時間的注意をフレーム内静的な注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案する。
論文 参考訳(メタデータ) (2022-06-24T07:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。