論文の概要: HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling
- arxiv url: http://arxiv.org/abs/2603.29090v1
- Date: Tue, 31 Mar 2026 00:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.95539
- Title: HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling
- Title(参考訳): HCLSM:オブジェクト中心世界モデリングのための階層型因果潜在状態マシン
- Authors: Jaber Jaber, Osama Jaber,
- Abstract要約: HCLSMは、オブジェクト中心分解、空間放送復号化、階層的時間力学の3つの原理で機能する。
システムは51モジュールにまたがる8,478行のPythonにまたがっており、171のユニットテストがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models that predict future states from video remain limited by flat latent representations that entangle objects, ignore causal structure, and collapse temporal dynamics into a single scale. We present HCLSM, a world model architecture that operates on three interconnected principles: object-centric decomposition via slot attention with spatial broadcast decoding, hierarchical temporal dynamics through a three-level engine combining selective state space models for continuous physics, sparse transformers for discrete events, and compressed transformers for abstract goals, and causal structure learning through graph neural network interaction patterns. HCLSM introduces a two-stage training protocol where spatial reconstruction forces slot specialization before dynamics prediction begins. We train a 68M-parameter model on the PushT robotic manipulation benchmark from the Open X-Embodiment dataset, achieving 0.008 MSE next-state prediction loss with emerging spatial decomposition (SBD loss: 0.0075) and learned event boundaries. A custom Triton kernel for the SSM scan delivers 38x speedup over sequential PyTorch. The full system spans 8,478 lines of Python across 51 modules with 171 unit tests. Code: https://github.com/rightnow-ai/hclsm
- Abstract(参考訳): ビデオから将来の状態を予測する世界モデルは、オブジェクトを絡めて因果構造を無視し、時間的ダイナミクスを単一スケールに崩壊させるフラットな潜在表現によって制限されている。
HCLSMは,空間的放送復号によるスロットアテンションによるオブジェクト中心分解,連続物理のための選択状態空間モデルを組み合わせた3レベルエンジンによる階層時間ダイナミクス,離散イベントのためのスパーストランスフォーマー,抽象目標のための圧縮トランスフォーマー,グラフニューラルネットワーク相互作用パターンによる因果構造学習の3つの原理に基づく世界モデルアーキテクチャである。
HCLSMは、2段階のトレーニングプロトコルを導入し、ダイナミックス予測が始まる前に空間再構成力をスロットする。
我々は、Open X-EmbodimentデータセットからPushTロボット操作ベンチマークで68Mパラメータモデルをトレーニングし、出現する空間分解(SBD損失:0.0075)による0.008MSEの次状態予測損失を達成し、イベント境界を学習した。
SSMスキャン用のカスタムのTritonカーネルは、シーケンシャルなPyTorchよりも38倍のスピードアップを提供する。
完全なシステムは、51モジュールにまたがる8,478行のPythonにまたがっており、171の単体テストがある。
コード:https://github.com/rightnow-ai/hclsm
関連論文リスト
- LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Eagle: Large-Scale Learning of Turbulent Fluid Dynamics with Mesh
Transformers [23.589419066824306]
流体力学を推定することは、解決するのが非常に難しい。
問題に対する新しいモデル,メソッド,ベンチマークを導入する。
我々の変換器は、既存の合成データセットと実際のデータセットの両方において、最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:59:08Z) - Emulating Spatio-Temporal Realizations of Three-Dimensional Isotropic
Turbulence via Deep Sequence Learning Models [24.025975236316842]
最先端のディープラーニング技術を用いて3次元乱流をモデル化するために,データ駆動方式を用いる。
モデルの精度は、統計および物理に基づくメトリクスを用いて評価される。
論文 参考訳(メタデータ) (2021-12-07T03:33:39Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。