論文の概要: Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation
- arxiv url: http://arxiv.org/abs/2512.18741v1
- Date: Sun, 21 Dec 2025 14:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.48479
- Title: Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation
- Title(参考訳): メモリ・アンド・ジェネレーション:リアルタイムビデオ生成における長期的一貫性を目指して
- Authors: Tianrui Zhu, Shiyi Zhang, Zhirui Sun, Jingqi Tian, Yansong Tang,
- Abstract要約: textbfMemorize-and-Generate(MAG)は、メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、優れた歴史的シーン一貫性を実現することが示された。
- 参考スコア(独自算出の注目度): 33.32047364623734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frame-level autoregressive (frame-AR) models have achieved significant progress, enabling real-time video generation comparable to bidirectional diffusion models and serving as a foundation for interactive world models and game engines. However, current approaches in long video generation typically rely on window attention, which naively discards historical context outside the window, leading to catastrophic forgetting and scene inconsistency; conversely, retaining full history incurs prohibitive memory costs. To address this trade-off, we propose \textbf{Memorize-and-Generate (MAG)}, a framework that decouples memory compression and frame generation into distinct tasks. Specifically, we train a memory model to compress historical information into a compact KV cache, and a separate generator model to synthesize subsequent frames utilizing this compressed representation. Furthermore, we introduce \textbf{MAG-Bench} to strictly evaluate historical memory retention. Extensive experiments demonstrate that MAG achieves superior historical scene consistency while maintaining competitive performance on standard video generation benchmarks.
- Abstract(参考訳): フレームレベルの自己回帰(frame-AR)モデルは、双方向拡散モデルに匹敵するリアルタイムビデオ生成を可能にし、インタラクティブな世界モデルとゲームエンジンの基礎となる。
しかし、長いビデオ生成における現在のアプローチは、通常、窓の外の歴史的文脈を消し去る窓の注意に頼っており、破滅的な忘れとシーンの不整合を招き、逆に、完全な履歴を保持することは、禁止的なメモリコストを発生させる。
このトレードオフに対処するために,メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである \textbf{Memorize-and-Generate (MAG) を提案する。
具体的には、記憶モデルを訓練して、履歴情報をコンパクトなKVキャッシュに圧縮し、この圧縮された表現を用いて後続のフレームを合成する。
さらに,歴史的記憶保持度を厳格に評価するために,‘textbf{MAG-Bench} を導入する。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、より優れた歴史的シーン一貫性を実現することを示した。
関連論文リスト
- StoryMem: Multi-shot Long Video Storytelling with Memory [32.97816766878247]
本稿では,ビデオの長めのストーリーテリングを,明示的な視覚記憶を前提とした反復的なショット合成として再構成するパラダイムであるStoryMemを提案する。
提案するフレームワークは、スムーズなショット遷移とカスタマイズされたストーリー生成アプリケーションに自然に対応している。
論文 参考訳(メタデータ) (2025-12-22T16:23:24Z) - MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives [54.07515675393396]
既存のソリューションは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持する。
我々はこの問題に対処するためにMemFlowを提案する。
MemFlowは、無視可能な負担を伴う、卓越した長いコンテキスト整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T18:59:59Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval [33.15952106579093]
歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
歴史的文脈を全て組み込むという膨大な計算オーバーヘッドを考慮すると、メモリ検索モジュールを提案する。
実験により, コンテキスト・アズ・メモリは, SOTAと比較して, 対話型長ビデオ生成において優れたメモリ能力を実現することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:05Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。