論文の概要: Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft
- arxiv url: http://arxiv.org/abs/2510.03198v1
- Date: Fri, 03 Oct 2025 17:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.51014
- Title: Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft
- Title(参考訳): メモリ強制:Minecraftの一貫性のあるシーン生成のための時空間メモリ
- Authors: Junchao Huang, Xinting Hu, Boyao Han, Shaoshuai Shi, Zhuotao Tian, Tianyu He, Li Jiang,
- Abstract要約: Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
- 参考スコア(独自算出の注目度): 45.363427511806385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video diffusion models have proved effective for world modeling and interactive scene generation, with Minecraft gameplay as a representative application. To faithfully simulate play, a model must generate natural content while exploring new scenes and preserve spatial consistency when revisiting explored areas. Under limited computation budgets, it must compress and exploit historical cues within a finite context window, which exposes a trade-off: Temporal-only memory lacks long-term spatial consistency, whereas adding spatial memory strengthens consistency but may degrade new scene generation quality when the model over-relies on insufficient spatial context. We present Memory Forcing, a learning framework that pairs training protocols with a geometry-indexed spatial memory. Hybrid Training exposes distinct gameplay regimes, guiding the model to rely on temporal memory during exploration and incorporate spatial memory for revisits. Chained Forward Training extends autoregressive training with model rollouts, where chained predictions create larger pose variations and encourage reliance on spatial memory for maintaining consistency. Point-to-Frame Retrieval efficiently retrieves history by mapping currently visible points to their source frames, while Incremental 3D Reconstruction maintains and updates an explicit 3D cache. Extensive experiments demonstrate that Memory Forcing achieves superior long-term spatial consistency and generative quality across diverse environments, while maintaining computational efficiency for extended sequences.
- Abstract(参考訳): 自動回帰ビデオ拡散モデルは、Minecraftのゲームプレイを代表アプリケーションとして、世界モデリングとインタラクティブなシーン生成に有効であることが証明されている。
遊びを忠実にシミュレートするには、新しいシーンを探索しながら自然コンテンツを生成し、探索領域を再考する際に空間的一貫性を維持する必要がある。
時間のみのメモリは長期の空間的一貫性に欠ける一方、空間的メモリの追加は一貫性を強化しているが、モデルが不十分な空間的コンテキストで過度にリレーされると、新たなシーン生成品質を低下させる可能性がある。
本稿では,トレーニングプロトコルと空間記憶を幾何学的に表現した学習フレームワークであるMemory Forcingを紹介する。
ハイブリッドトレーニングは、探索中に時間記憶に頼るようモデルに誘導し、再考のために空間記憶を組み込む、異なるゲームプレイ体制を公開する。
Chained Forward Trainingは、モデルロールアウトによる自己回帰トレーニングを拡張し、連鎖予測はより大きなポーズのバリエーションを生成し、一貫性を維持するために空間記憶への依存を促進する。
Point-to-Frame Retrievalは、現在の可視点をソースフレームにマッピングすることで、履歴を効率的に検索する。
広範囲な実験により、メモリフォーシングは、拡張シーケンスの計算効率を維持しながら、様々な環境において、より優れた長期空間整合性と生成品質を実現することが示された。
関連論文リスト
- Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - WORLDMEM: Long-term Consistent World Simulation with Memory [20.450750381415965]
WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
論文 参考訳(メタデータ) (2025-04-16T17:59:30Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。