論文の概要: H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model
- arxiv url: http://arxiv.org/abs/2602.11291v2
- Date: Wed, 04 Mar 2026 17:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.380881
- Title: H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model
- Title(参考訳): H-WM:階層的世界モデルによるロボット作業と運動計画
- Authors: Jinbang Huang, Wenyuan Chen, Zhiyuan Li, Oscar Pang, Xiao Hu, Lingfeng Zhang, Yuanzhao Hu, Zhanguang Zhang, Mark Coates, Tongtong Cao, Xingyue Quan, Yingxue Zhang,
- Abstract要約: 統合されたフレームワーク内での論理的および視覚的状態遷移を共同で予測する階層的世界モデル(H-WM)を提案する。
H-WMは、高レベルの論理世界モデルと低レベルの視覚世界モデルを組み合わせて、記号的推論の長い水平と視覚的接地を統合する。
複数の視覚-言語-アクション(VLA)制御ポリシに対する実験は、H-WMのガイダンスの有効性と汎用性を示している。
- 参考スコア(独自算出の注目度): 26.305515799597714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World models are becoming central to robotic planning and control as they enable prediction of future state transitions. Existing approaches often emphasize video generation or natural-language prediction, which are difficult to ground in robot actions and suffer from compounding errors over long horizons. Classic task and motion planning models world transitions in logical space, enabling robot-executable and robust long-horizon reasoning. However, they typically operate independently of visual perception, preventing synchronized symbolic and visual state prediction. We propose a Hierarchical World Model (H-WM) that jointly predicts logical and visual state transitions within a unified framework. H-WM combines a high-level logical world model with a low-level visual world model, integrating the long-horizon robustness of symbolic reasoning with visual grounding. The hierarchical outputs provide stable intermediate guidance for long-horizon tasks, mitigating error accumulation and enabling robust execution across extended task sequences. Experiments across multiple vision-language-action (VLA) control policies demonstrate the effectiveness and generality of H-WM's guidance.
- Abstract(参考訳): 世界モデルは、将来の状態遷移の予測を可能にするため、ロボット計画と制御の中心になりつつある。
既存のアプローチでは、ビデオ生成や自然言語予測が強調されることが多く、ロボットの動作を基盤にするのは難しく、長い地平線上の複雑なエラーに悩まされる。
古典的なタスク・アンド・モーション・プランニング・モデルでは、論理空間で世界が遷移し、ロボットが実行可能で堅牢なロングホライゾン推論を可能にする。
しかし、それらは一般的に視覚的知覚とは独立して動作し、同期されたシンボルと視覚状態の予測を防ぐ。
統合されたフレームワーク内での論理的および視覚的状態遷移を共同で予測する階層的世界モデル(H-WM)を提案する。
H-WMは、高レベルの論理世界モデルと低レベルの視覚世界モデルを組み合わせて、記号的推論の長い水平ロバスト性と視覚的グラウンド化を統合する。
階層的な出力は、長い水平タスクに対して安定した中間ガイダンスを提供し、エラーの蓄積を緩和し、拡張されたタスクシーケンス間で堅牢な実行を可能にする。
複数の視覚-言語-アクション(VLA)制御ポリシに対する実験は、H-WMのガイダンスの有効性と汎用性を示す。
関連論文リスト
- Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [49.805071498152536]
PANは、汎用的で対話性があり、長い水平世界モデルである。
歴史と自然言語のアクションを前提とした高品質なビデオシミュレーションにより、将来の世界の状態を予測します。
実験により, PANは行動条件付き世界シミュレーション, 長期予測, シミュレーション推論において高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-12T07:20:35Z) - Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-10-09T18:18:11Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。