Fugu-MT 論文翻訳(概要): H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

論文の概要: H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

arxiv url: http://arxiv.org/abs/2602.11291v2
Date: Wed, 04 Mar 2026 17:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.380881
Title: H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model
Title（参考訳）: H-WM:階層的世界モデルによるロボット作業と運動計画
Authors: Jinbang Huang, Wenyuan Chen, Zhiyuan Li, Oscar Pang, Xiao Hu, Lingfeng Zhang, Yuanzhao Hu, Zhanguang Zhang, Mark Coates, Tongtong Cao, Xingyue Quan, Yingxue Zhang,
Abstract要約: 統合されたフレームワーク内での論理的および視覚的状態遷移を共同で予測する階層的世界モデル(H-WM)を提案する。 H-WMは、高レベルの論理世界モデルと低レベルの視覚世界モデルを組み合わせて、記号的推論の長い水平と視覚的接地を統合する。複数の視覚-言語-アクション(VLA)制御ポリシに対する実験は、H-WMのガイダンスの有効性と汎用性を示している。
参考スコア（独自算出の注目度）: 26.305515799597714
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: World models are becoming central to robotic planning and control as they enable prediction of future state transitions. Existing approaches often emphasize video generation or natural-language prediction, which are difficult to ground in robot actions and suffer from compounding errors over long horizons. Classic task and motion planning models world transitions in logical space, enabling robot-executable and robust long-horizon reasoning. However, they typically operate independently of visual perception, preventing synchronized symbolic and visual state prediction. We propose a Hierarchical World Model (H-WM) that jointly predicts logical and visual state transitions within a unified framework. H-WM combines a high-level logical world model with a low-level visual world model, integrating the long-horizon robustness of symbolic reasoning with visual grounding. The hierarchical outputs provide stable intermediate guidance for long-horizon tasks, mitigating error accumulation and enabling robust execution across extended task sequences. Experiments across multiple vision-language-action (VLA) control policies demonstrate the effectiveness and generality of H-WM's guidance.
Abstract（参考訳）: 世界モデルは、将来の状態遷移の予測を可能にするため、ロボット計画と制御の中心になりつつある。既存のアプローチでは、ビデオ生成や自然言語予測が強調されることが多く、ロボットの動作を基盤にするのは難しく、長い地平線上の複雑なエラーに悩まされる。古典的なタスク・アンド・モーション・プランニング・モデルでは、論理空間で世界が遷移し、ロボットが実行可能で堅牢なロングホライゾン推論を可能にする。しかし、それらは一般的に視覚的知覚とは独立して動作し、同期されたシンボルと視覚状態の予測を防ぐ。統合されたフレームワーク内での論理的および視覚的状態遷移を共同で予測する階層的世界モデル(H-WM)を提案する。 H-WMは、高レベルの論理世界モデルと低レベルの視覚世界モデルを組み合わせて、記号的推論の長い水平ロバスト性と視覚的グラウンド化を統合する。階層的な出力は、長い水平タスクに対して安定した中間ガイダンスを提供し、エラーの蓄積を緩和し、拡張されたタスクシーケンス間で堅牢な実行を可能にする。複数の視覚-言語-アクション(VLA)制御ポリシに対する実験は、H-WMのガイダンスの有効性と汎用性を示す。

論文の概要: H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

関連論文リスト