論文の概要: EgoZero: Robot Learning from Smart Glasses
- arxiv url: http://arxiv.org/abs/2505.20290v1
- Date: Mon, 26 May 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.45434
- Title: EgoZero: Robot Learning from Smart Glasses
- Title(参考訳): EgoZero:スマートグラスから学ぶロボット
- Authors: Vincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto,
- Abstract要約: EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
- 参考スコア(独自算出の注目度): 56.04938111906595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in general purpose robotics, robot policies still lag far behind basic human capabilities in the real world. Humans interact constantly with the physical world, yet this rich data resource remains largely untapped in robot learning. We propose EgoZero, a minimal system that learns robust manipulation policies from human demonstrations captured with Project Aria smart glasses, $\textbf{and zero robot data}$. EgoZero enables: (1) extraction of complete, robot-executable actions from in-the-wild, egocentric, human demonstrations, (2) compression of human visual observations into morphology-agnostic state representations, and (3) closed-loop policy learning that generalizes morphologically, spatially, and semantically. We deploy EgoZero policies on a gripper Franka Panda robot and demonstrate zero-shot transfer with 70% success rate over 7 manipulation tasks and only 20 minutes of data collection per task. Our results suggest that in-the-wild human data can serve as a scalable foundation for real-world robot learning - paving the way toward a future of abundant, diverse, and naturalistic training data for robots. Code and videos are available at https://egozero-robot.github.io.
- Abstract(参考訳): 汎用ロボティクスの最近の進歩にもかかわらず、ロボットのポリシーは現実世界の基本的な人間の能力にはまだ及ばない。
人間は物理世界と常に対話するが、この豊富なデータリソースはロボット学習にはほとんど使われていない。
我々は、Project Ariaスマートグラス、$\textbf{and zero robot data}$でキャプチャされた人間のデモから堅牢な操作ポリシーを学ぶ最小限のシステムであるEgoZeroを提案する。
EgoZero は,(1) 形態的・空間的・意味的に一般化するクローズドループ政策学習,(2) 形態的・空間的・意味的にヒトの視覚的観察を形態的・認識的状態表現に圧縮する,完全なロボット実行可能な動作の抽出を可能にする。
我々は,手持ちのFranka PandaロボットにEgoZeroポリシをデプロイし,7つの操作タスクに対して70%の成功率,タスク毎のデータ収集に20分しかかからないゼロショット転送を実演する。
この結果から,ロボットのための多種多様で自然主義的なトレーニングデータの未来への道を切り開く,現実のロボット学習のスケーラブルな基盤として,現在地にある人間のデータが役立てられることが示唆された。
コードとビデオはhttps://egozero-robot.github.io.comで公開されている。
関連論文リスト
- Generalizable Humanoid Manipulation with 3D Diffusion Policies [41.23383596258797]
我々は、ヒューマノイドロボットによる自律的な操作の問題を解決するために、現実世界のロボットシステムを構築している。
本システムは主に,人型ロボットデータを取得するための全身ロボット遠隔操作システムと,高さ調整可能なカートと3D LiDARセンサを備えた25-DoFヒューマノイドロボットプラットフォームの統合である。
1つのシーンで収集されたデータのみを使用し、オンボードコンピューティングのみで、フルサイズのヒューマノイドロボットが様々な現実世界のシナリオで自律的にスキルを発揮できることが示される。
論文 参考訳(メタデータ) (2024-10-14T17:59:00Z) - HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Know Thyself: Transferable Visuomotor Control Through Robot-Awareness [22.405839096833937]
新しいロボットをスクラッチからトレーニングするためには、通常大量のロボット固有のデータを生成する必要がある。
簡単なロボット「自己認識」を活用する「ロボット認識」ソリューションパラダイムを提案する。
シミュレーションおよび実際のロボットにおけるテーブルトップ操作に関する実験により、これらのプラグインの改善により、ビジュモータコントローラの転送性が劇的に向上することを示した。
論文 参考訳(メタデータ) (2021-07-19T17:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。