論文の概要: Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations
- arxiv url: http://arxiv.org/abs/2511.16661v1
- Date: Thu, 20 Nov 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.80654
- Title: Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations
- Title(参考訳): スマートレンズからのデキスタリティ: 人体でのデモによる多指ロボット操作
- Authors: Irmak Guzey, Haozhi Qi, Julen Urain, Changhao Wang, Jessica Yin, Krishna Bodduluri, Mike Lambeta, Lerrel Pinto, Akshara Rai, Jitendra Malik, Tingfan Wu, Akash Sharma, Homanga Bharadhwaj,
- Abstract要約: 自然環境で日々のタスクを行う人間から、マルチフィンガーロボットポリシーを学ぶことは、ロボットコミュニティにとって長年の大きな目標だった。
AINAは、Aria Gen 2メガネを使用して、どこでも、どこでも、あらゆる環境で収集されたデータから、マルチフィンガーポリシーを学ぶことができる。
- 参考スコア(独自算出の注目度): 52.29884993824894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multi-fingered robot policies from humans performing daily tasks in natural environments has long been a grand goal in the robotics community. Achieving this would mark significant progress toward generalizable robot manipulation in human environments, as it would reduce the reliance on labor-intensive robot data collection. Despite substantial efforts, progress toward this goal has been bottle-necked by the embodiment gap between humans and robots, as well as by difficulties in extracting relevant contextual and motion cues that enable learning of autonomous policies from in-the-wild human videos. We claim that with simple yet sufficiently powerful hardware for obtaining human data and our proposed framework AINA, we are now one significant step closer to achieving this dream. AINA enables learning multi-fingered policies from data collected by anyone, anywhere, and in any environment using Aria Gen 2 glasses. These glasses are lightweight and portable, feature a high-resolution RGB camera, provide accurate on-board 3D head and hand poses, and offer a wide stereo view that can be leveraged for depth estimation of the scene. This setup enables the learning of 3D point-based policies for multi-fingered hands that are robust to background changes and can be deployed directly without requiring any robot data (including online corrections, reinforcement learning, or simulation). We compare our framework against prior human-to-robot policy learning approaches, ablate our design choices, and demonstrate results across nine everyday manipulation tasks. Robot rollouts are best viewed on our website: https://aina-robot.github.io.
- Abstract(参考訳): 自然環境で日々のタスクを行う人間から、マルチフィンガーロボットポリシーを学ぶことは、ロボットコミュニティにとって長年の大きな目標だった。
これは、労働集約型ロボットデータ収集への依存を減らすため、人間の環境での汎用ロボット操作に向けた大きな進歩となるだろう。
かなりの努力にもかかわらず、この目標への前進は、人間とロボットの具体化のギャップや、人間内ビデオからの自律的なポリシーの学習を可能にする、関連するコンテキストや動きの手がかりを抽出することの難しさによって妨げられている。
人間のデータと提案したフレームワークAINAを得るための、シンプルだが十分に強力なハードウェアによって、私たちは今、この夢を達成するための大きな一歩を踏み出している、と私たちは主張する。
AINAは、Aria Gen 2メガネを使用して、どこでも、どこでも、あらゆる環境で収集されたデータから、マルチフィンガーポリシーを学ぶことができる。
これらのメガネは軽量でポータブルで、高解像度のRGBカメラを備え、正確な3Dヘッドとハンドポーズを提供し、シーンの深さ推定に利用できる広いステレオビューを提供する。
この設定により、背景の変更に対して堅牢で、ロボットデータ(オンライン修正、強化学習、シミュレーションを含む)を必要とせずに直接デプロイできるマルチフィンガーハンドの3Dポイントベースのポリシーの学習が可能になる。
我々は、従来の人間からロボットまでのポリシー学習アプローチと比較し、設計選択を緩和し、9つの日常的な操作タスクで結果を実証する。
ロボットのロールアウトは、私たちのウェブサイトで最もよく見られます。
関連論文リスト
- EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。