論文の概要: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2602.16705v1
- Date: Wed, 18 Feb 2026 18:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.695817
- Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
- Title(参考訳): オープンボキャブラリ視覚ロコマニピュレーションのためのヒューマノイドエンドエフェクタ制御の学習
- Authors: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta,
- Abstract要約: 本稿では,ヒューマノイドロボットを用いたオブジェクトロコ操作のための新しいパラダイムHEROを提案する。
我々は、正確な残留認識EE追跡ポリシーを設計することで、これを実現する。
我々は、この正確なエンドエフェクタトラッカーを使用して、ロコ操作のためのモジュラーシステムを構築します。
- 参考スコア(独自算出の注目度): 14.013652439013692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.
- Abstract(参考訳): 人間型ロボットによる野生の任意の物体の視覚的ロコ操作には、正確なエンドエフェクタ(EE)制御と視覚入力(例えばRGB-D画像)によるシーンの一般的な理解が必要である。
既存のアプローチは実世界の模倣学習に基づいており、大規模なトレーニングデータセットの収集が困難であるため、限定的な一般化を示している。
本稿では,ロボットによるロボットによるロボット操作のための新たなパラダイムHEROを提案する。
我々は、正確な残留認識EE追跡ポリシーを設計することで、これを実現する。
このEEトラッキングポリシーは、古典的なロボティクスと機械学習を組み合わせたものだ。
使用される。
a) 残留するエンドエフェクタターゲットを基準軌道に変換する逆運動学
b) 正確な前方運動学のための学習された神経前方モデル
c) 目標調整、及び
d) 再計画。
これらのイノベーションは、エンドエフェクタトラッキングエラーを3.2倍削減するのに役立ちます。
我々は、この正確なエンドエフェクタトラッカーを用いて、ロコ操作のためのモジュラーシステムを構築する。
本システムでは,オフィスからコーヒーショップまで,さまざまな環境下での作業が可能で,高さ43cmから92cmまでの様々な日常的な物体(マグカップ,リンゴ,おもちゃなど)を確実に操作することができる。
シミュレーションおよび実世界におけるシステム的モジュラーおよびエンドツーエンドテストは,提案した設計の有効性を実証する。
この論文の進歩は、日常の物体と対話するヒューマノイドロボットを訓練する新しい方法を開くことができると信じている。
関連論文リスト
- DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Decoupling Skill Learning from Robotic Control for Generalizable Object
Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。
これは関節制御のための高次元の作用空間によるものであると推測する。
本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。
ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文 参考訳(メタデータ) (2023-03-07T16:31:13Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。