Fugu-MT 論文翻訳(概要): Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution

論文の概要: Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution

arxiv url: http://arxiv.org/abs/2605.25333v1
Date: Mon, 25 May 2026 01:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.232838
Title: Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution
Title（参考訳）: ビデオジェネレータを思い出す:視界外進化のためのダイナミックメモリ
Authors: Tianshuo Xu, Yichen Xie, Depu Meng, Chensheng Peng, Quentin Herau, Bo Jiang, Yihan Hu, Wei Zhan,
Abstract要約: ビデオモデルは、証拠が保存されていないときに進化する状態を維持すべきであるが、現在のジェネレータは割り込み時に隠れた状態を凍結することが多い。本稿では,メモリ指向データ,イベント認識トレーニング,キャッシュ型適応による動的メモリ動作を実現するフレームワークであるReMindを紹介する。
参考スコア（独自算出の注目度）: 25.63670341165374
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video world models should maintain evolving states when evidence is unobserved, yet current generators often freeze hidden states upon interruption. This is not simply a capacity problem: pretrained video diffusion transformers already possess KV-cache mechanisms capable of non-local retrieval, but they are rarely trained to use them as dynamic memory. We introduce ReMind, a framework eliciting dynamic memory behavior via memory-oriented data, event-aware training, and cache adaptation. Organized around a taxonomy of 100+ dynamic events, we build a camera-annotated training mixture combining VLM-filtered real videos, generated hard dynamics, synthetic camera loops, and memory-interruption augmentations. Each clip is converted into a frame graph with protected anchors, degraded intervals, and explicit temporal gaps. A node-structured curriculum, including node-drop, noisy memory, frontier continuation, and reference-cache training, forces the model to retrieve relevant past states across interruptions rather than relying solely on local continuity. PM-RoPE, an elegant camera-phase RoPE extension, unlocks spatiotemporal retrieval at a single-attention cost while preserving pretrained pathways. ReMind achieves the best overall scores on STEVO-Bench and recovery tasks. Furthermore, general image-to-video evaluations confirm this curriculum avoids catastrophic forgetting. We will open-source our code, data, and models.
Abstract（参考訳）: ビデオワールドモデルは、証拠が保存されていないときに進化する状態を維持すべきであるが、現在のジェネレータは割り込み時に隠れた状態を凍結することが多い。これは単にキャパシティの問題ではなく、事前訓練されたビデオ拡散トランスフォーマーは、既に非局所検索が可能なKVキャッシュ機構を持っているが、動的メモリとして使用するように訓練されることは滅多にない。 ReMindは、メモリ指向データ、イベント認識トレーニング、キャッシュ適応による動的メモリ動作を実現するフレームワークである。 100以上の動的事象の分類に基づいて編成され、VLMフィルタリングされた実ビデオ、生成されたハードダイナミックス、合成カメラループ、メモリ中断強化を組み合わせた、カメラ注釈付きトレーニングミックスを構築した。各クリップは、保護されたアンカー、劣化した間隔、明示的な時間的ギャップを持つフレームグラフに変換される。ノードドロップ、ノイズメモリ、フロンティア継続、参照キャッシュトレーニングを含むノード構造化のカリキュラムは、局所的な連続性にのみ依存するのではなく、割り込みを越えて関連する過去の状態を取得するようモデルに強制する。エレガントなカメラフェーズのRoPE拡張であるPM-RoPEは、事前訓練された経路を保ちながら、一応のコストで時空間検索をアンロックする。 ReMindはSTEVO-Benchとリカバリタスクで最高のスコアを得る。さらに、画像と映像の一般的な評価により、このカリキュラムは破滅的な忘れを避けることができる。私たちはコード、データ、モデルをオープンソース化します。

論文の概要: Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution

関連論文リスト