論文の概要: Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution
- arxiv url: http://arxiv.org/abs/2605.25333v1
- Date: Mon, 25 May 2026 01:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.232838
- Title: Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution
- Title(参考訳): ビデオジェネレータを思い出す:視界外進化のためのダイナミックメモリ
- Authors: Tianshuo Xu, Yichen Xie, Depu Meng, Chensheng Peng, Quentin Herau, Bo Jiang, Yihan Hu, Wei Zhan,
- Abstract要約: ビデオモデルは、証拠が保存されていないときに進化する状態を維持すべきであるが、現在のジェネレータは割り込み時に隠れた状態を凍結することが多い。
本稿では,メモリ指向データ,イベント認識トレーニング,キャッシュ型適応による動的メモリ動作を実現するフレームワークであるReMindを紹介する。
- 参考スコア(独自算出の注目度): 25.63670341165374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video world models should maintain evolving states when evidence is unobserved, yet current generators often freeze hidden states upon interruption. This is not simply a capacity problem: pretrained video diffusion transformers already possess KV-cache mechanisms capable of non-local retrieval, but they are rarely trained to use them as dynamic memory. We introduce ReMind, a framework eliciting dynamic memory behavior via memory-oriented data, event-aware training, and cache adaptation. Organized around a taxonomy of 100+ dynamic events, we build a camera-annotated training mixture combining VLM-filtered real videos, generated hard dynamics, synthetic camera loops, and memory-interruption augmentations. Each clip is converted into a frame graph with protected anchors, degraded intervals, and explicit temporal gaps. A node-structured curriculum, including node-drop, noisy memory, frontier continuation, and reference-cache training, forces the model to retrieve relevant past states across interruptions rather than relying solely on local continuity. PM-RoPE, an elegant camera-phase RoPE extension, unlocks spatiotemporal retrieval at a single-attention cost while preserving pretrained pathways. ReMind achieves the best overall scores on STEVO-Bench and recovery tasks. Furthermore, general image-to-video evaluations confirm this curriculum avoids catastrophic forgetting. We will open-source our code, data, and models.
- Abstract(参考訳): ビデオワールドモデルは、証拠が保存されていないときに進化する状態を維持すべきであるが、現在のジェネレータは割り込み時に隠れた状態を凍結することが多い。
これは単にキャパシティの問題ではなく、事前訓練されたビデオ拡散トランスフォーマーは、既に非局所検索が可能なKVキャッシュ機構を持っているが、動的メモリとして使用するように訓練されることは滅多にない。
ReMindは、メモリ指向データ、イベント認識トレーニング、キャッシュ適応による動的メモリ動作を実現するフレームワークである。
100以上の動的事象の分類に基づいて編成され、VLMフィルタリングされた実ビデオ、生成されたハードダイナミックス、合成カメラループ、メモリ中断強化を組み合わせた、カメラ注釈付きトレーニングミックスを構築した。
各クリップは、保護されたアンカー、劣化した間隔、明示的な時間的ギャップを持つフレームグラフに変換される。
ノードドロップ、ノイズメモリ、フロンティア継続、参照キャッシュトレーニングを含むノード構造化のカリキュラムは、局所的な連続性にのみ依存するのではなく、割り込みを越えて関連する過去の状態を取得するようモデルに強制する。
エレガントなカメラフェーズのRoPE拡張であるPM-RoPEは、事前訓練された経路を保ちながら、一応のコストで時空間検索をアンロックする。
ReMindはSTEVO-Benchとリカバリタスクで最高のスコアを得る。
さらに、画像と映像の一般的な評価により、このカリキュラムは破滅的な忘れを避けることができる。
私たちはコード、データ、モデルをオープンソース化します。
関連論文リスト
- EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation [18.052867824594347]
マルチショットビデオ生成には、ショット間で連続的なエンティティの出現を維持する必要がある。
最近の自己回帰手法は、以前生成されたフレームをメモリとして再利用する。
我々は、潜伏パッチのエンティティインデックスバンクという形でエンティティ中心のメモリを提案する。
論文 参考訳(メタデータ) (2026-05-22T13:20:29Z) - Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models [56.44348799741838]
静的な背景の正確なアーキビストと動的対象の警戒トラッカーを同時に行うためにモデルを必要とする新しいパラダイムであるHybrid Memoryを導入する。
HM-Worldは、ハイブリッドメモリに特化した最初の大規模ビデオデータセットである。
また,メモリをトークンに圧縮し,時間的関連性に基づく検索機構を利用する専用メモリアーキテクチャHyDRAを提案する。
論文 参考訳(メタデータ) (2026-03-26T17:56:01Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。