論文の概要: Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling
- arxiv url: http://arxiv.org/abs/2605.00412v1
- Date: Fri, 01 May 2026 05:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.853874
- Title: Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling
- Title(参考訳): 物理的にネイティブな世界モデル: 生成的世界モデリングにおけるハミルトン的視点
- Authors: Sen Cui, Jingheng Ma,
- Abstract要約: 我々は、世界モデルのボトルネックは、現実的な未来を創造できるかどうかだけでなく、これらの未来が物理的に意味があり、行動に有用であるかどうかを論じる。
本研究では,世界モデリングの物理的基盤として,EmphHamiltonian World Modelsを提案する。
我々は、ハミルトン構造が解釈可能性、データ効率、長期安定性をどのように改善するかを議論するとともに、摩擦、接触、非保守力、変形可能な物体を含む現実のロボットシーンにおける実践的な課題についても述べる。
- 参考スコア(独自算出の注目度): 5.424198387331309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have recently re-emerged as a central paradigm for embodied intelligence, robotics, autonomous driving, and model-based reinforcement learning. However, current world model research is often dominated by three partially separated routes: 2D video-generative models that emphasize visual future synthesis, 3D scene-centric models that emphasize spatial reconstruction, and JEPA-like latent models that emphasize abstract predictive representations. While each route has made important progress, they still struggle to provide physically reliable, action-controllable, and long-horizon stable predictions for embodied decision making. In this paper, we argue that the bottleneck of world models is no longer only whether they can generate realistic futures, but whether those futures are physically meaningful and useful for action. We propose \emph{Hamiltonian World Models} as a physically grounded perspective on world modeling. The key idea is to encode observations into a structured latent phase space, evolve the latent state through Hamiltonian-inspired dynamics with control, dissipation, and residual terms, decode the predicted trajectory into future observations, and use the resulting rollouts for planning. We discuss how Hamiltonian structure may improve interpretability, data efficiency, and long-horizon stability, while also noting practical challenges in real-world robotic scenes involving friction, contact, non-conservative forces, and deformable objects.
- Abstract(参考訳): 近年、世界モデルは、インテリジェンス、ロボティクス、自律運転、モデルに基づく強化学習の中心パラダイムとして再登場している。
しかしながら、現在の世界モデル研究は、視覚的な将来の合成を強調する2次元ビデオ生成モデル、空間的再構成を強調する3次元シーン中心モデル、抽象的な予測表現を強調するJEPAのような潜在モデルという3つの部分的なルートで支配されている。
それぞれのルートは重要な進歩を遂げてきたが、身体的に信頼性があり、行動制御可能で、長期にわたる安定した意思決定予測の提供に苦慮している。
本稿では,世界モデルのボトルネックは,現実的な未来を創造できるかどうかだけでなく,これらの未来が身体的に意味があり,行動に有用であるかどうかを論じる。
本稿では,世界モデリングの物理的基盤として,emph{Hamiltonian World Models}を提案する。
鍵となるアイデアは、構造化された潜在位相空間に観測をエンコードし、制御、散逸、残留項を含むハミルトンに着想を得たダイナミクスを通して潜在状態を進化させ、予測された軌道を将来の観測にデコードし、その結果のロールアウトを計画に使用することである。
我々は、ハミルトン構造が解釈可能性、データ効率、長期安定性をどのように改善するかを議論するとともに、摩擦、接触、非保存力、変形可能な物体を含む現実のロボットシーンにおける実践的な課題についても述べる。
関連論文リスト
- DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning [44.543763428623976]
DriveDreamer-Policyは、深度生成、将来のビデオ生成、モーションプランニングを統合した統合運転ワールドアクションモデルである。
提案したモデルは、モジュラリティと遅延制御性を維持しながら、より一貫性のある未来とより情報のある駆動動作を生成する。
論文 参考訳(メタデータ) (2026-04-02T08:33:18Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文 参考訳(メタデータ) (2026-01-21T23:35:33Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Clone Deterministic 3D Worlds with Geometrically-Regularized World Models [16.494281967592745]
エージェントが複雑でダイナミックな設定で効果的に思考、計画、理性を実現するためには、世界モデルが不可欠である。
急速な進歩にもかかわらず、現在の世界モデルは、長い地平線上で不安定で劣化している。
本稿では, 自然な知覚軌道に沿った連続点が潜在表現空間に近接しているような幾何学的正規化世界モデル(GRWM)を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:56:43Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
本フレームワークは,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Simplifying Latent Dynamics with Softly State-Invariant World Models [10.722955763425228]
エージェントの動作をより予測可能なものにするために、潜時力学を規則化する世界モデルであるParsimonious Latent Space Model (PLSM)を導入する。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
論文 参考訳(メタデータ) (2024-01-31T13:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。