論文の概要: Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model
- arxiv url: http://arxiv.org/abs/2512.08188v1
- Date: Tue, 09 Dec 2025 02:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.790293
- Title: Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model
- Title(参考訳): 思考の身体木:世界モデルを用いた自由度操作計画
- Authors: Wenjiang Xu, Cindy Wang, Rui Fang, Mingkang Zhang, Lusong Li, Jing Xu, Jiayuan Gu, Zecui Zeng, Rui Chen,
- Abstract要約: Embodied Tree of Thoughts (EToT)は、Real2Sim2Real計画フレームワークである。
EToTは2つの相乗的メカニズムを通じてツリー探索が拡張されたときの操作計画の定式化を行う。
物理シミュレータで高レベル推論を基礎にすることにより、生成した計画が剛体力学や衝突の制約に固執することを保証する。
- 参考スコア(独自算出の注目度): 12.257547810949482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have emerged as a pivotal component in robot manipulation planning, enabling agents to predict future environmental states and reason about the consequences of actions before execution. While video-generation models are increasingly adopted, they often lack rigorous physical grounding, leading to hallucinations and a failure to maintain consistency in long-horizon physical constraints. To address these limitations, we propose Embodied Tree of Thoughts (EToT), a novel Real2Sim2Real planning framework that leverages a physics-based interactive digital twin as an embodied world model. EToT formulates manipulation planning as a tree search expanded through two synergistic mechanisms: (1) Priori Branching, which generates diverse candidate execution paths based on semantic and spatial analysis; and (2) Reflective Branching, which utilizes VLMs to diagnose execution failures within the simulator and iteratively refine the planning tree with corrective actions. By grounding high-level reasoning in a physics simulator, our framework ensures that generated plans adhere to rigid-body dynamics and collision constraints. We validate EToT on a suite of short- and long-horizon manipulation tasks, where it consistently outperforms baselines by effectively predicting physical dynamics and adapting to potential failures. Website at https://embodied-tree-of-thoughts.github.io .
- Abstract(参考訳): 世界モデルはロボット操作計画において重要な要素として現れており、エージェントは将来の環境状態を予測し、実行前の行動の結果を推論することができる。
ビデオ生成モデルはますます採用されているが、しばしば厳密な物理的根拠が欠如しており、幻覚と長期の物理的制約の一貫性の維持に失敗する。
これらの制約に対処するために,物理学に基づくインタラクティブデジタル双対を具体化世界モデルとして活用する,新しいReal2Sim2Real計画フレームワークであるEmbodied Tree of Thoughts (EToT)を提案する。
EToTは,(1)意味的および空間的分析に基づく多様な候補実行経路を生成する優先分岐,(2)VLMを用いてシミュレータ内の実行障害を診断し,修正行動で計画木を反復的に洗練する反射分岐,という2つの相乗的メカニズムを通じて,ツリー探索としての操作計画の定式化を行う。
物理シミュレータで高レベル推論を基礎にすることにより、生成した計画が剛体力学や衝突の制約に固執することを保証する。
EToTは、物理的ダイナミクスを効果的に予測し、潜在的な障害に適応することによって、ベースラインを一貫して上回り、短期的および長期的操作タスクのスイートで検証する。
ウェブサイト https://embodied-tree-of- Thoughts.github.io
関連論文リスト
- Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain [62.01012517796797]
動的で非構造的な環境で知覚、理性、行動できるロボットを構築することは、依然として中核的な課題である。
システム2は高レベルの推論を処理し、システム1は低レベルの制御を実行する。
本稿では,マルチモーダル大言語モデル(MLLM)を具体的脳として体系的に評価するベンチマークであるRoboBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-20T17:59:03Z) - ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning [77.49815848173613]
本研究では,内因性行動とメカニズムの両方について,シンボル的状態表現と因果過程を共同で学習する抽象世界モデルのためのフレームワークを提案する。
シミュレーションされた5つのテーブルトップロボット環境の中で、学習されたモデルは、より多くのオブジェクトとより複雑な目標を持つ保留タスクに一般化した高速な計画を可能にし、幅広いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-30T13:44:34Z) - OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning [50.45036742963495]
我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
論文 参考訳(メタデータ) (2025-09-11T10:32:22Z) - SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning [6.255814224573073]
SimGenHOIは、生成モデリングと強化学習の強みを組み合わせた統一的なフレームワークであり、制御可能で物理的に妥当なHOIを生成する。
本研究では,Diffusion Transformers (DiT) に基づくHOI生成モデルを用いて,テキストプロンプト,オブジェクト形状,スパースオブジェクトウェイポイント,初期ヒューマノイドポーズのセットを予測した。
身体的現実性を確保するため,強化学習で訓練された接触認識全身制御ポリシーを設計し,その動作をトラッキングし,侵入や足の滑りなどのアーティファクトを補正する。
論文 参考訳(メタデータ) (2025-08-18T15:20:46Z) - Scan, Materialize, Simulate: A Generalizable Framework for Physically Grounded Robot Planning [16.193477346643295]
Scan, Materialize, Simulate (SMS) は,正確なシーン再構成のための3次元ガウススプラッティング,セマンティックセグメンテーションのための視覚基盤モデル,物質特性推定のための視覚言語モデル,アクション結果の信頼性予測のための物理シミュレーションを組み合わせた統合フレームワークである。
本研究は,シーン再構築のための異種レンダリング,セマンティック理解のための基礎モデル,物理に基づくシミュレーションにより,多様な環境にまたがる物理的基盤を持つロボット計画を実現する可能性を強調した。
論文 参考訳(メタデータ) (2025-05-20T21:55:01Z) - DMWM: Dual-Mind World Model with Long-Term Imagination [43.39205414684229]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文 参考訳(メタデータ) (2025-02-11T14:40:57Z) - PhyPlan: Generalizable and Rapid Physical Task Planning with Physics Informed Skill Networks for Robot Manipulators [5.4089975505600005]
物理推論の既存の方法は、実世界固有の複雑さと不確実性に苦しむデータハングリーである。
本稿では,物理インフォームドニューラルネットワーク(PINN)と修正モンテカルロ木探索(MCTS)を組み合わせた物理インフォームド計画フレームワークであるPhyPlanについて述べる。
論文 参考訳(メタデータ) (2024-04-22T06:35:08Z) - PhyPlan: Compositional and Adaptive Physical Task Reasoning with
Physics-Informed Skill Networks for Robot Manipulators [5.680235630702706]
物理推論の既存の方法は、実世界固有の複雑さと不確実性に苦しむデータハングリーである。
本稿では,物理インフォームドニューラルネットワーク(PINN)と修正モンテカルロ木探索(MCTS)を組み合わせた物理インフォームド計画フレームワークであるPhyPlanについて述べる。
論文 参考訳(メタデータ) (2024-02-24T08:51:03Z) - Planning and Execution using Inaccurate Models with Provable Guarantees [23.733488427663396]
計画と実行のインターリーブ手法としてCMAXを提案する。
CMAXは、実際の実行中に計画戦略をオンラインで適用し、計画中のダイナミクスの相違を考慮する。
提案した計画および実行フレームワークの完全性および効率性に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2020-03-09T20:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。