論文の概要: Lifting Embodied World Models for Planning and Control
- arxiv url: http://arxiv.org/abs/2604.26182v1
- Date: Tue, 28 Apr 2026 23:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.203508
- Title: Lifting Embodied World Models for Planning and Control
- Title(参考訳): 計画・制御のためのリフティング・エボディード・ワールドモデル
- Authors: Alex N. Wang, Trevor Darrell, Pavel Izmailov, Yutong Bai, Amir Bar,
- Abstract要約: 我々は、ハイレベルなアクションを低レベルなジョイントアクションのシーケンスにマッピングする軽量なポリシーを訓練する。
我々は、この枠組みを人間的な実施のためにインスタンス化し、ハイレベルなアクション空間を2次元のウェイポイントの小さなセットとして定義する。
昇降した世界モデルは,低レベルな関節空間で直接探索するよりもかなり優れていることを示す。
- 参考スコア(独自算出の注目度): 59.09016913513998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models of embodied agents predict future observations conditioned on an action taken by the agent. For complex embodiments, action spaces are high-dimensional and difficult to specify: for example, precisely controlling a human agent requires specifying the motion of each joint. This makes the world model hard to control and expensive to plan with as search-based methods like CEM scale poorly with action dimensionality. To address this issue, we train a lightweight policy that maps high-level actions to sequences of low-level joint actions. Composing this policy with the frozen world model produces a lifted world model that predicts a sequence of future observations from a single high-level action. We instantiate this framework for a human-like embodiment, defining the high-level action space as a small set of 2D waypoints annotated on the current observation frame, each specifying a near-term goal position for a leaf joint (pelvis, head, hands). Waypoints are low-dimensional, visually interpretable, and easy to specify manually or to search over. We show that the lifted world model substantially outperforms searching directly in low-level joint space ($3.8\times$ lower mean joint error to the goal pose), while remaining more compute-efficient and generalizing to environments unseen by the policy.
- Abstract(参考訳): エンボディード・エージェントの世界モデルは、エージェントが取るアクションに条件付けされた将来の観測を予測します。
複雑な実施形態では、アクション空間は高次元的で特定が難しい: 例えば、人間のエージェントを正確に制御するには、それぞれの関節の動きを指定する必要がある。
これにより、世界モデルは制御が難しく、CEMのような検索ベースの手法では動作の寸法が悪くなるため、計画を立てるのにコストがかかる。
この問題に対処するため、我々は、ハイレベルなアクションを低レベルなジョイントアクションのシーケンスにマッピングする軽量なポリシーを訓練する。
このポリシーを凍結世界モデルと組み合わせることで、単一のハイレベルなアクションから将来の観測の順序を予測する、リフトされた世界モデルが生成される。
我々は、この枠組みを人間のような実施形態のためにインスタンス化し、その高レベルな行動空間を、現在の観察フレームにアノテートされた2Dウェイポイントの小さなセットとして定義し、それぞれが葉の関節(骨盤、頭、手)の短期的な目標位置を指定する。
ウェイポイントは低次元であり、視覚的に解釈可能であり、手動で指定したり、検索するのも容易である。
昇降した世界モデルは,低レベルなジョイント空間(3.8\times$low mean joint error to the goal pose)での探索において,より計算効率を高くし,ポリシーに見当たらない環境への一般化を保ちながら,大幅に上回っていることを示す。
関連論文リスト
- Hierarchical Planning with Latent World Models [49.82095442483551]
階層的計画は、最大4倍の計画時間計算を必要としながら、より高い成功を達成する。
この階層的なアプローチにより、現実世界の非グリーディロボットタスクをゼロショットで制御できることを実証する。
論文 参考訳(メタデータ) (2026-04-03T17:32:36Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - Scaling World Model for Hierarchical Manipulation Policies [61.736772957803026]
Vision-Language-Action(VLA)モデルは、汎用的なロボット操作を約束するが、配布外設定では脆弱である。
本稿では,大規模事前学習型世界モデルの一般化を活用した階層型ビジョン・ランゲージ・アクション・フレームワークを提案する。
視覚目標合成と階層型VLAポリシの両方を,大規模なアウト・オブ・ディストリビューションシナリオで検証する。
論文 参考訳(メタデータ) (2026-02-11T16:12:33Z) - Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。
未知の物体や命令で 彼らの能力を評価し 改善することは 重要な課題です
世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-11T09:13:10Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。