論文の概要: Toward Memory-Aided World Models: Benchmarking via Spatial Consistency
- arxiv url: http://arxiv.org/abs/2505.22976v1
- Date: Thu, 29 May 2025 01:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.606394
- Title: Toward Memory-Aided World Models: Benchmarking via Spatial Consistency
- Title(参考訳): 記憶支援世界モデルに向けて:空間整合性によるベンチマーク
- Authors: Kewei Lian, Shaofei Cai, Yilun Du, Yitao Liang,
- Abstract要約: メモリモジュールは空間整合性に対処するための重要なコンポーネントである。
空間的一貫性の制約を明示的に強制することによってメモリモジュールの開発を促進するために設計されたデータセットは存在しない。
我々は、Minecraftのオープンワールド環境内の150の異なる場所をサンプリングし、データセットと対応するベンチマークを構築した。
- 参考スコア(独自算出の注目度): 30.871215294419343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to simulate the world in a spatially consistent manner is a crucial requirements for effective world models. Such a model enables high-quality visual generation, and also ensures the reliability of world models for downstream tasks such as simulation and planning. Designing a memory module is a crucial component for addressing spatial consistency: such a model must not only retain long-horizon observational information, but also enables the construction of explicit or implicit internal spatial representations. However, there are no dataset designed to promote the development of memory modules by explicitly enforcing spatial consistency constraints. Furthermore, most existing benchmarks primarily emphasize visual coherence or generation quality, neglecting the requirement of long-range spatial consistency. To bridge this gap, we construct a dataset and corresponding benchmark by sampling 150 distinct locations within the open-world environment of Minecraft, collecting about 250 hours (20 million frames) of loop-based navigation videos with actions. Our dataset follows a curriculum design of sequence lengths, allowing models to learn spatial consistency on increasingly complex navigation trajectories. Furthermore, our data collection pipeline is easily extensible to new Minecraft environments and modules. Four representative world model baselines are evaluated on our benchmark. Dataset, benchmark, and code are open-sourced to support future research.
- Abstract(参考訳): 空間的に一貫した方法で世界をシミュレートする能力は、効果的な世界モデルにとって重要な要件である。
このようなモデルは高品質な視覚生成を可能にし、シミュレーションや計画といった下流タスクのための世界モデルの信頼性を保証する。
メモリモジュールの設計は空間的整合性に対処するための重要な要素であり、そのようなモデルは長期の観測情報を保持するだけでなく、明示的あるいは暗黙的な内部空間表現の構築を可能にする。
しかし、空間的一貫性の制約を明示的に課すことでメモリモジュールの開発を促進するために設計されたデータセットは存在しない。
さらに、既存のベンチマークのほとんどは、主に視覚的コヒーレンスや生成品質を強調し、長距離空間整合性の要求を無視している。
このギャップを埋めるために、我々はMinecraftのオープンワールド環境内の150の異なる場所をサンプリングし、ループベースのナビゲーションビデオの約250時間(2000万フレーム)をアクション付きで収集し、データセットと対応するベンチマークを構築した。
我々のデータセットはシーケンス長のカリキュラム設計に従っており、複雑なナビゲーショントラジェクトリの空間的一貫性を学習することができる。
さらに、データ収集パイプラインは、新しいMinecraft環境やモジュールに容易に拡張できます。
4つの代表的な世界モデルベースラインをベンチマークで評価した。
データセット、ベンチマーク、コードは、将来の研究をサポートするためにオープンソース化されている。
関連論文リスト
- RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。
多様な視覚的目標を認識し、位置を特定する能力を持つべきである。
いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文 参考訳(メタデータ) (2025-05-23T15:27:57Z) - Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [97.98560001760126]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。
提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (2025-03-18T17:57:54Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - A Simple Framework for Multi-mode Spatial-Temporal Data Modeling [4.855443906457102]
本稿では,マルチモード時空間データモデリングのための簡易なフレームワークを提案する。
具体的には、複数のモード間の接続を適応的に確立するために、一般的なクロスモード空間関係学習コンポーネントを設計する。
3つの実世界のデータセットの実験により、我々のモデルは、空間と時間の複雑さの低いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2023-08-22T05:41:20Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。