論文の概要: Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling
- arxiv url: http://arxiv.org/abs/2603.04553v1
- Date: Wed, 04 Mar 2026 19:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.952357
- Title: Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling
- Title(参考訳): 潜在粒子世界モデル:自己教師型物体中心確率力学モデリング
- Authors: Tal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held,
- Abstract要約: 実世界のマルチオブジェクトデータセットに拡張された自己教師型オブジェクト中心の世界モデルであるLatent Particle World Model (LPWM)を紹介する。
LPWMは、ビデオデータから直接キーポイント、バウンディングボックス、オブジェクトマスクを自律的に発見する。
私たちのアーキテクチャは、純粋にビデオからエンドツーエンドにトレーニングされ、アクション、言語、イメージ目標に対するフレキシブルな条件付けをサポートします。
- 参考スコア(独自算出の注目度): 51.40150411616207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web
- Abstract(参考訳): 実世界のマルチオブジェクトデータセットにスケールされた自己教師型オブジェクト中心の世界モデルであるLatent Particle World Model (LPWM)を導入し、意思決定に適用する。
LPWMは、ビデオデータから直接キーポイント、バウンディングボックス、オブジェクトマスクを自律的に発見し、監督なしでリッチなシーン分解を学習することができる。
私たちのアーキテクチャは、純粋にビデオからエンドツーエンドにトレーニングされ、アクション、言語、イメージ目標に対するフレキシブルな条件付けをサポートします。
LPWMは、新しい潜在アクションモジュールを通じて確率的粒子動力学をモデル化し、様々な実世界および合成データセットの最先端結果を達成する。
確率的ビデオモデリング以外にも、LPWMは、我々が論文で示したように、ゴール条件付き模倣学習を含む意思決定にも容易に適用できる。
コード、データ、事前訓練されたモデル、ビデオのロールアウトが利用可能だ。
関連論文リスト
- Factored Latent Action World Models [39.60866765151469]
アクションフリービデオから潜在アクションを学ぶことは、制御可能な世界モデル学習をスケールアップするための強力なパラダイムとして現れました。
本稿では、シーンを独立した要因に分解する動的因子フレームワークであるFacted Latent Action Model (FLAM)を紹介する。
論文 参考訳(メタデータ) (2026-02-18T07:08:14Z) - A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures [58.26804959656713]
JEPA(Joint-Embedding Predictive Architectures)を用いた表現と世界モデルを学習するためのオープンソースのライブラリであるEB-JEPAを提案する。
JEPAsは、ピクセル空間ではなく表現空間で予測することを学び、生成モデリングの落とし穴を避ける。
これらの表現がどのように行動条件付き世界モデルを駆動し、Two Roomsナビゲーションタスクで97%の計画成功率を達成するかを示す。
論文 参考訳(メタデータ) (2026-02-03T14:56:24Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation [18.468025471225527]
MoWMは、ハイブリッドワールドモデルから表現を融合して、具体的アクションプランニングを行う混合世界モデルフレームワークである。
提案手法では,ピクセル空間モデルから微細な視覚的特徴の抽出を誘導する,潜在モデルからの動き認識表現を高レベルな事前表現として利用する。
論文 参考訳(メタデータ) (2025-09-26T02:54:36Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。