論文の概要: Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration
- arxiv url: http://arxiv.org/abs/2504.12609v3
- Date: Sat, 16 Aug 2025 04:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.913551
- Title: Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration
- Title(参考訳): 擬似リアルRLを用いた人間-ロボット両用ギャップの横断
- Authors: Tyler Ga Wei Lum, Olivia Y. Lee, C. Karen Liu, Jeannette Bohg,
- Abstract要約: 本稿では,タスクを実演する人間の1つのRGB-Dビデオのみを用いて,創発的な操作ポリシーを訓練する,新しいリアルタイム・シミュレート・トゥ・リアルフレームワークを提案する。
Human2Sim2Robotは、オブジェクト認識のリプレイを55%以上上回り、模倣学習を68%以上上回っている。
- 参考スコア(独自算出の注目度): 21.94699075066712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching robots dexterous manipulation skills often requires collecting hundreds of demonstrations using wearables or teleoperation, a process that is challenging to scale. Videos of human-object interactions are easier to collect and scale, but leveraging them directly for robot learning is difficult due to the lack of explicit action labels and human-robot embodiment differences. We propose Human2Sim2Robot, a novel real-to-sim-to-real framework for training dexterous manipulation policies using only one RGB-D video of a human demonstrating a task. Our method utilizes reinforcement learning (RL) in simulation to cross the embodiment gap without relying on wearables, teleoperation, or large-scale data collection. From the video, we extract: (1) the object pose trajectory to define an object-centric, embodiment-agnostic reward, and (2) the pre-manipulation hand pose to initialize and guide exploration during RL training. These components enable effective policy learning without any task-specific reward tuning. In the single human demo regime, Human2Sim2Robot outperforms object-aware replay by over 55% and imitation learning by over 68% on grasping, non-prehensile manipulation, and multi-step tasks. Website: https://human2sim2robot.github.io
- Abstract(参考訳): ロボットに巧妙な操作のスキルを教えるには、何百ものデモをウェアラブルや遠隔操作で集める必要がある。
人間と物体の相互作用のビデオは収集とスケールが容易だが、明示的なアクションラベルの欠如と人間とロボットの体格の違いにより、ロボット学習にそれらを直接利用することは困難である。
我々は,タスクを実演する人間の1つのRGB-Dビデオのみを用いて,創発的な操作ポリシーをトレーニングするための,新しいリアルタイム・シミュレート・トゥ・リアルなフレームワークであるHuman2Sim2Robotを提案する。
本手法は, ウェアラブル, 遠隔操作, 大規模データ収集に頼ることなく, シミュレーションに強化学習(RL)を用いて実施する。
映像から,(1)対象物は対象中心の具体的報酬を定義するために軌道を呈し,(2)操作前手はRL訓練中に探索を初期化しガイドする。
これらのコンポーネントは、タスク固有の報酬チューニングなしで効果的なポリシー学習を可能にする。
Human2Sim2Robotは、人間の1つのデモシステムにおいて、オブジェクト認識のリプレイを55%以上、模倣学習を68%以上、把握、非包括的操作、マルチステップタスクで上回っている。
Webサイト: https://human2sim2robot.github.io
関連論文リスト
- UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations [24.232732907295194]
UniSkillは、ラベルなしで大規模なクロスボデーメントビデオデータから、エンボディディメントに依存しないスキル表現を学ぶフレームワークである。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
論文 参考訳(メタデータ) (2025-05-13T17:59:22Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - AR2-D2:Training a Robot Without a Robot [53.10633639596096]
専門的な訓練を要さないデモを収集するシステムであるAR2-D2を紹介する。
AR2-D2は、iOSアプリの形式で、あらゆるオブジェクトを操作する自身のビデオを記録するために使用することができるフレームワークである。
本研究では,本システムを用いて収集したデータにより,実物操作における行動クローニングエージェントの訓練が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-23T23:54:26Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。