論文の概要: WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling
- arxiv url: http://arxiv.org/abs/2512.02473v1
- Date: Tue, 02 Dec 2025 07:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.758602
- Title: WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling
- Title(参考訳): WorldPack: 圧縮メモリはビデオワールドモデリングにおける空間一貫性を改善する
- Authors: Yuta Oshima, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta,
- Abstract要約: 効率的な圧縮メモリを備えたビデオワールドモデルであるWorldPackを提案する。
WorldPackは、長期世代における空間的一貫性、忠実度、品質を著しく改善する。
パフォーマンスはMinecraftのベンチマークであるLoopNavで評価されています。
- 参考スコア(独自算出の注目度): 42.52474988220278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video world models have attracted significant attention for their ability to produce high-fidelity future visual observations conditioned on past observations and navigation actions. Temporally- and spatially-consistent, long-term world modeling has been a long-standing problem, unresolved with even recent state-of-the-art models, due to the prohibitively expensive computational costs for long-context inputs. In this paper, we propose WorldPack, a video world model with efficient compressed memory, which significantly improves spatial consistency, fidelity, and quality in long-term generation despite much shorter context length. Our compressed memory consists of trajectory packing and memory retrieval; trajectory packing realizes high context efficiency, and memory retrieval maintains the consistency in rollouts and helps long-term generations that require spatial reasoning. Our performance is evaluated with LoopNav, a benchmark on Minecraft, specialized for the evaluation of long-term consistency, and we verify that WorldPack notably outperforms strong state-of-the-art models.
- Abstract(参考訳): ビデオワールドモデルは、過去の観測と航法行動に照らされた高忠実な将来の視覚的な観察を制作する能力において、大きな注目を集めている。
時間的・空間的に一貫性のある長期的世界モデリングは長年の問題であり、近年の最先端モデルでは解決されていない。
本稿では,より短いコンテクスト長にもかかわらず,空間の整合性,忠実度,品質を大幅に向上させる,効率的な圧縮メモリを備えたビデオワールドモデルWorldPackを提案する。
圧縮メモリは, トラジェクトリ・パッキングとメモリ・リカバリで構成され, トラジェクトリ・パッキングは高いコンテキスト効率を実現し, メモリ・リカバリはロールアウト時の一貫性を維持し, 空間的推論を必要とする長期的世代を支援する。
我々の性能はMinecraftのベンチマークであるLoopNavで評価され、長期的な一貫性の評価に特化しています。
関連論文リスト
- SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - Toward Memory-Aided World Models: Benchmarking via Spatial Consistency [30.871215294419343]
メモリモジュールは空間整合性に対処するための重要なコンポーネントである。
空間的一貫性の制約を明示的に強制することによってメモリモジュールの開発を促進するために設計されたデータセットは存在しない。
我々は、Minecraftのオープンワールド環境内の150の異なる場所をサンプリングし、データセットと対応するベンチマークを構築した。
論文 参考訳(メタデータ) (2025-05-29T01:28:57Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - WORLDMEM: Long-term Consistent World Simulation with Memory [20.450750381415965]
WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
論文 参考訳(メタデータ) (2025-04-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。