論文の概要: Ego-Vision World Model for Humanoid Contact Planning
- arxiv url: http://arxiv.org/abs/2510.11682v1
- Date: Mon, 13 Oct 2025 17:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.489865
- Title: Ego-Vision World Model for Humanoid Contact Planning
- Title(参考訳): ヒューマノイド接触計画のためのエゴビジョン世界モデル
- Authors: Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath,
- Abstract要約: 本稿では,学習世界モデルとサンプリングベースモデル予測制御を組み合わせたフレームワークを提案する。
本システムは,プロプレセプションとエゴ中心の深度画像から,堅牢でリアルタイムな接触計画を実現する。
- 参考スコア(独自算出の注目度): 17.12603623353369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling humanoid robots to exploit physical contact, rather than simply avoid collisions, is crucial for autonomy in unstructured environments. Traditional optimization-based planners struggle with contact complexity, while on-policy reinforcement learning (RL) is sample-inefficient and has limited multi-task ability. We propose a framework combining a learned world model with sampling-based Model Predictive Control (MPC), trained on a demonstration-free offline dataset to predict future outcomes in a compressed latent space. To address sparse contact rewards and sensor noise, the MPC uses a learned surrogate value function for dense, robust planning. Our single, scalable model supports contact-aware tasks, including wall support after perturbation, blocking incoming objects, and traversing height-limited arches, with improved data efficiency and multi-task capability over on-policy RL. Deployed on a physical humanoid, our system achieves robust, real-time contact planning from proprioception and ego-centric depth images. Website: https://ego-vcp.github.io/
- Abstract(参考訳): 衝突を避けるのではなく、物理的接触を利用するためのヒューマノイドロボットの開発は、非構造環境における自律性にとって不可欠である。
従来の最適化ベースのプランナーは接触複雑性に苦しむが、オンライン強化学習(RL)はサンプル非効率であり、マルチタスク能力に制限がある。
本稿では,学習世界モデルとサンプリングベースモデル予測制御(MPC)を組み合わせたフレームワークを提案する。
疎い接触報酬とセンサノイズに対処するために、MPCは学習された代理値関数を用いて、密集した堅牢な計画を立てる。
我々の単一でスケーラブルなモデルは、摂動後の壁サポート、入ってくる物体のブロック、高度制限アーチのトラバースなど、接触認識タスクをサポートします。
物理的ヒューマノイド上に展開した本システムは,プロテアーゼとエゴ中心の深度画像から,堅牢でリアルタイムな接触計画を実現する。
ウェブサイト:https://ego-vcp.github.io/
関連論文リスト
- OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction [76.44108003274955]
ヒューマノイドロボットの複雑なスキルを教えるための主要なパラダイムは、強化学習ポリシーの運動学的参照として人間の動きを再ターゲットすることである。
インタラクションメッシュに基づくインタラクション保存データ生成エンジンであるOmniRetargetを紹介する。
人間のメッシュとロボットメッシュの間のラプラシアの変形を最小限にすることで、OmniRetargetは運動学的に実現可能な軌道を生成する。
論文 参考訳(メタデータ) (2025-09-30T17:59:02Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Accelerating Interactive Human-like Manipulation Learning with GPU-based
Simulation and High-quality Demonstrations [25.393382192511716]
コンタクトリッチなタスクを対話的に操作するための没入型仮想現実遠隔操作インタフェースを提案する。
我々は,大規模並列RLと模倣学習の相補的強みを実証し,頑健で自然な振る舞いを示す。
論文 参考訳(メタデータ) (2022-12-05T09:37:27Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Robust Robotic Control from Pixels using Contrastive Recurrent
State-Space Models [8.22669535053079]
本研究では、画像などの高次元観測空間上で、制約のない環境で世界モデルを学習する方法を研究する。
困難の原因の1つは、無関係ではあるが、モデルによる背景の混乱の存在である。
我々は、次の観測を対照的に予測する反復潜時力学モデルを学ぶ。
このシンプルなモデルは、同時にカメラ、背景、色を逸脱しても驚くほど頑丈なロボット制御に繋がる。
論文 参考訳(メタデータ) (2021-12-02T12:15:25Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - COCOI: Contact-aware Online Context Inference for Generalizable
Non-planar Pushing [87.7257446869134]
一般的なコンタクトリッチな操作問題は、ロボット工学における長年の課題である。
深層強化学習は、ロボット操作タスクの解決に大きな可能性を示している。
動的プロパティのコンテキスト埋め込みをオンラインにエンコードする深層RL法であるCOCOIを提案する。
論文 参考訳(メタデータ) (2020-11-23T08:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。