論文の概要: HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
- arxiv url: http://arxiv.org/abs/2603.03243v1
- Date: Tue, 03 Mar 2026 18:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.867726
- Title: HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations
- Title(参考訳): HoMMI: 人間のデモから全身移動操作を学習する
- Authors: Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Shuran Song,
- Abstract要約: Whole-Body Mobile Manipulation Interface (HoMMI)は、ロボットのない人間のデモから直接、全身のモバイル操作を学習する。
我々は、モバイル操作に必要なグローバルコンテキストをキャプチャするために、エゴセントリックな感覚でUMIインタフェースを拡張する。
私たちはこのギャップを、クロス・エボディメント・ハンド・アイ・ポリシー設計で明示的に埋めます。
- 参考スコア(独自算出の注目度): 15.551927664158695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Whole-Body Mobile Manipulation Interface (HoMMI), a data collection and policy learning framework that learns whole-body mobile manipulation directly from robot-free human demonstrations. We augment UMI interfaces with egocentric sensing to capture the global context required for mobile manipulation, enabling portable, robot-free, and scalable data collection. However, naively incorporating egocentric sensing introduces a larger human-to-robot embodiment gap in both observation and action spaces, making policy transfer difficult. We explicitly bridge this gap with a cross-embodiment hand-eye policy design, including an embodiment agnostic visual representation; a relaxed head action representation; and a whole-body controller that realizes hand-eye trajectories through coordinated whole-body motion under robot-specific physical constraints. Together, these enable long-horizon mobile manipulation tasks requiring bimanual and whole-body coordination, navigation, and active perception. Results are best viewed on: https://hommi-robot.github.io
- Abstract(参考訳): We present Whole-Body Mobile Manipulation Interface (HoMMI), a data collection and policy learning framework that learns whole-body mobile control from robot-free human demonstrations。
モバイル操作に必要なグローバルコンテキストをキャプチャし、ポータブルでロボットフリーでスケーラブルなデータ収集を可能にする。
しかし、自我中心の感覚を鼻で取り入れることで、観察空間と行動空間の両方において人間とロボットのエンボディメントのギャップが大きくなり、政策伝達が困難になる。
我々はこのギャップを、具体的無知の視覚表現、リラックスした頭部動作表現、ロボット固有の身体的制約下での調整された全身運動を通して手眼軌跡を実現する全身制御を含む、横断的身体的手眼政策設計で明示的に橋渡しする。
これらを組み合わせることで、双方向と全身の調整、ナビゲーション、アクティブな知覚を必要とする長時間の移動操作が可能になる。
結果は最もよく見られる。 https://hommi-robot.github.io
関連論文リスト
- ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations [52.29884993824894]
自然環境で日々のタスクを行う人間から、マルチフィンガーロボットポリシーを学ぶことは、ロボットコミュニティにとって長年の大きな目標だった。
AINAは、Aria Gen 2メガネを使用して、どこでも、どこでも、あらゆる環境で収集されたデータから、マルチフィンガーポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2025-11-20T18:59:02Z) - TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System [79.48781507497769]
既存のヒューマノイド遠隔操作システムは、分離された制御を使用するか、高価なモーションキャプチャー装置に依存している。
本稿では,携帯型モキャップフリーなヒューマノイド遠隔操作・データ収集システムであるTWIST2を紹介する。
長軸的,移動的ヒューマノイドスキルを実証し,約100%の成功率で15分で100個のデモを収集できる。
論文 参考訳(メタデータ) (2025-11-04T18:58:35Z) - TWIST: Teleoperated Whole-Body Imitation System [28.597388162969057]
全身動作模倣によるヒューマノイド遠隔操作システムTWISTについて述べる。
我々は,強化学習と行動クローニングを組み合わせた,頑健で適応的で応答性の高い全身制御装置を開発した。
TWISTは、現実世界のヒューマノイドロボットが、前例のない、多目的で、調整された全身運動能力を達成できるようにする。
論文 参考訳(メタデータ) (2025-05-05T17:59:03Z) - Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - Visual Whole-Body Control for Legged Loco-Manipulation [22.50054654508986]
そこで本研究では,ロボットアームを用いた移動操作の問題点について検討する。
視覚的観察により全身制御を自律的に行うことのできる枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:26:08Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。