論文の概要: Where to Touch, How to Contact: Hierarchical RL-MPC Framework for Geometry-Aware Long-Horizon Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2601.10930v2
- Date: Fri, 23 Jan 2026 18:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.805946
- Title: Where to Touch, How to Contact: Hierarchical RL-MPC Framework for Geometry-Aware Long-Horizon Dexterous Manipulation
- Title(参考訳): タッチの場所, 接触方法: 幾何学を考慮した長距離デキスタラスマニピュレーションのための階層的RL-MPCフレームワーク
- Authors: Zhixian Xie, Yu Xiang, Michael Posa, Wanxin Jin,
- Abstract要約: 接触リッチな外接操作における重要な課題は、幾何学、運動論的制約、複雑で非滑らかな接触力学を共同で推論する必要があることである。
本稿では,高レベル強化学習(RL)政策が接触意図を予測する階層的なRL--MPCフレームワークを提案する。
我々は、幾何学的一般化されたプッシュやオブジェクト3D再構成を含む、非包括的タスクに関するフレームワークを評価する。
- 参考スコア(独自算出の注目度): 15.309183490293721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in contact-rich dexterous manipulation is the need to jointly reason over geometry, kinematic constraints, and intricate, nonsmooth contact dynamics. End-to-end visuomotor policies bypass this structure, but often require large amounts of data, transfer poorly from simulation to reality, and generalize weakly across tasks/embodiments. We address those limitations by leveraging a simple insight: dexterous manipulation is inherently hierarchical - at a high level, a robot decides where to touch (geometry) and move the object (kinematics); at a low level it determines how to realize that plan through contact dynamics. Building on this insight, we propose a hierarchical RL--MPC framework in which a high-level reinforcement learning (RL) policy predicts a contact intention, a novel object-centric interface that specifies (i) an object-surface contact location and (ii) a post-contact object-level subgoal pose. Conditioned on this contact intention, a low-level contact-implicit model predictive control (MPC) optimizes local contact modes and replans with contact dynamics to generate robot actions that robustly drive the object toward each subgoal. We evaluate the framework on non-prehensile tasks, including geometry-generalized pushing and object 3D reorientation. It achieves near-100% success with substantially reduced data (10x less than end-to-end baselines), highly robust performance, and zero-shot sim-to-real transfer.
- Abstract(参考訳): 接触リッチな外接操作における重要な課題は、幾何学、運動論的制約、複雑で非滑らかな接触力学を共同で推論する必要があることである。
エンド・ツー・エンドのビズモータポリシーはこの構造をバイパスするが、大量のデータを必要とし、シミュレーションから現実への伝達が不十分であり、タスク・エンボディメントにわたって弱い一般化を行う。
厳密な操作は本質的に階層的であり、高いレベルでは、ロボットがどこにタッチするか(幾何学)を決定し、オブジェクト(運動学)を移動させ、低いレベルでは接触力学を通してその計画を実現する方法を決定する。
この知見に基づいて、高レベル強化学習(RL)ポリシーが接触意図を予測する階層的なRL--MPCフレームワークを提案する。
一 接地及び接地
(ii) 接触後のオブジェクトレベルのサブゴールポーズ。
この接触意図を条件として、低レベル接触初期モデル予測制御(MPC)は、局所接触モードを最適化し、接触ダイナミクスで計画し、物体を各サブゴールに向けて頑健に駆動するロボット動作を生成する。
我々は、幾何学的一般化されたプッシュやオブジェクト3D再構成を含む、非包括的タスクに関するフレームワークを評価する。
これは、データを大幅に削減し(エンドツーエンドのベースラインよりも10倍少ない)、非常に堅牢なパフォーマンス、ゼロショットのsim-to-real転送でほぼ100%の成功を達成している。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation [82.63833405368159]
ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
論文 参考訳(メタデータ) (2026-02-14T16:05:08Z) - HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model [56.4392302336014]
本稿では,外部状態推定を伴わない多種多様なオブジェクトダイナミクス間のロバストな相互作用のためのフレームワークであるHAICを提案する。
我々の重要な貢献は、主観的歴史のみから高次対象状態(速度、加速度)を推定するダイナミクス予測器である。
ヒューマノイドロボットの実験では、HAICはアジャイルタスクで高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-12T09:34:35Z) - Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation [14.221542785249524]
本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。
我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
論文 参考訳(メタデータ) (2025-12-29T21:06:33Z) - Decoupled Generative Modeling for Human-Object Interaction Synthesis [35.78156236836254]
既存のアプローチでは、しばしば手動で指定した中間のウェイポイントを必要とし、最適化の目的を1つのネットワークに配置する。
DecHOI(Decoupled Generative Modeling for Human-Object Interaction Synthesis)を提案する。
軌道生成装置は、まず、所定のウェイポイントを伴わずに人や物体の軌道を生成し、これらの経路に作用生成条件を設けて詳細な動作を合成する。
論文 参考訳(メタデータ) (2025-12-22T05:33:59Z) - Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - Ego-Vision World Model for Humanoid Contact Planning [17.12603623353369]
本稿では,学習世界モデルとサンプリングベースモデル予測制御を組み合わせたフレームワークを提案する。
本システムは,プロプレセプションとエゴ中心の深度画像から,堅牢でリアルタイムな接触計画を実現する。
論文 参考訳(メタデータ) (2025-10-13T17:47:39Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Integrated Object Deformation and Contact Patch Estimation from
Visuo-Tactile Feedback [8.420670642409219]
本稿では,ビジュオ触覚フィードバックからオブジェクトの変形と接触パッチを共同でモデル化する表現を提案する。
我々は,NDCFを学習するためのニューラルネットワークアーキテクチャを提案し,シミュレーションデータを用いて学習する。
我々は,学習したNDCFが微調整を必要とせず,直接現実世界に転送されることを実証した。
論文 参考訳(メタデータ) (2023-05-23T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。