論文の概要: Clone Deterministic 3D Worlds with Geometrically-Regularized World Models
- arxiv url: http://arxiv.org/abs/2510.26782v1
- Date: Thu, 30 Oct 2025 17:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.964398
- Title: Clone Deterministic 3D Worlds with Geometrically-Regularized World Models
- Title(参考訳): 幾何学的規則化された世界モデルを用いたクローン決定論的3次元世界
- Authors: Zaishuo Xia, Yukuan Lu, Xinyi Li, Yifan Xu, Yubei Chen,
- Abstract要約: エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
- 参考スコア(独自算出の注目度): 16.494281967592745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A world model is an internal model that simulates how the world evolves. Given past observations and actions, it predicts the future of both the embodied agent and its environment. Accurate world models are essential for enabling agents to think, plan, and reason effectively in complex, dynamic settings. Despite rapid progress, current world models remain brittle and degrade over long horizons. We argue that a central cause is representation quality: exteroceptive inputs (e.g., images) are high-dimensional, and lossy or entangled latents make dynamics learning unnecessarily hard. We therefore ask whether improving representation learning alone can substantially improve world-model performance. In this work, we take a step toward building a truly accurate world model by addressing a fundamental yet open problem: constructing a model that can fully clone and overfit to a deterministic 3D world. We propose Geometrically-Regularized World Models (GRWM), which enforces that consecutive points along a natural sensory trajectory remain close in latent representation space. This approach yields significantly improved latent representations that align closely with the true topology of the environment. GRWM is plug-and-play, requires only minimal architectural modification, scales with trajectory length, and is compatible with diverse latent generative backbones. Across deterministic 3D settings and long-horizon prediction tasks, GRWM significantly increases rollout fidelity and stability. Analyses show that its benefits stem from learning a latent manifold with superior geometric structure. These findings support a clear takeaway: improving representation learning is a direct and useful path to robust world models, delivering reliable long-horizon predictions without enlarging the dynamics module.
- Abstract(参考訳): 世界モデルは、世界がどのように進化するかをシミュレートする内部モデルである。
過去の観察と行動から、エンボディエージェントとその環境の将来を予測する。
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、正確な世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
外部受容的入力(例えば画像)は高次元であり、損失または絡み合った潜伏剤は、動的学習を必然的に困難にします。
したがって,表現学習の改善だけでは世界モデルの性能が大幅に向上するかどうかを問う。
本研究は,決定論的3次元世界への完全クローン化と過剰適合が可能なモデルの構築という,基本的かつオープンな問題に対処することで,真に正確な世界モデルを構築するための一歩を踏み出したものである。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
このアプローチは、環境の真の位相と密接に一致した潜在表現を著しく改善する。
GRWMはプラグアンドプレイであり、最小限のアーキテクチャ変更しか必要とせず、軌道長のスケールが必要であり、様々な遅延生成バックボーンと互換性がある。
決定論的3D設定と長距離予測タスク全体にわたって、GRWMはロールアウトの忠実度と安定性を著しく向上させる。
解析によれば、その利点は、優れた幾何学的構造を持つ潜在多様体を学ぶことに由来する。
表現学習の改善は、堅牢な世界モデルへの直接的で有用な経路であり、動的モジュールを拡大することなく、信頼できる長距離予測を提供する。
関連論文リスト
- A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - 3D and 4D World Modeling: A Survey [104.20852751473392]
世界モデリングはAI研究の基盤となり、エージェントが住んでいる動的な環境を理解し、表現し、予測することができるようになった。
我々は、ビデオベース(VideoGen)、占領ベース(OccGen)、LiDARベース(LiDARGen)のアプローチにまたがる構造的分類法を導入する。
実践的応用について議論し、オープン課題を特定し、有望な研究方向性を明らかにする。
論文 参考訳(メタデータ) (2025-09-04T17:59:58Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Dyn-O: Building Structured World Models with Object-Centric Representations [42.65409148846005]
オブジェクト中心の表現に基づいて構築された拡張構造化世界モデルであるDyn-Oを紹介する。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
提案手法は,画素観測からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度を向上する。
論文 参考訳(メタデータ) (2025-07-04T05:06:15Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - Simplifying Latent Dynamics with Softly State-Invariant World Models [10.722955763425228]
エージェントの動作をより予測可能なものにするために、潜時力学を規則化する世界モデルであるParsimonious Latent Space Model (PLSM)を導入する。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
論文 参考訳(メタデータ) (2024-01-31T13:52:11Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。