論文の概要: ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration
- arxiv url: http://arxiv.org/abs/2604.08534v1
- Date: Thu, 09 Apr 2026 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.071329
- Title: ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration
- Title(参考訳): ActiveGlasses:エゴ中心の人間デモからアクティブビジョンによる学習操作
- Authors: Yanwen Zou, Chenyang Shi, Wenye Yu, Han Xue, Jun Lv, Ye Pan, Chuan Wen, Cewu Lu,
- Abstract要約: ActiveGlassesは、エゴ中心の人間のデモからロボット操作を学習するシステムである。
スマートグラスに装着されたステレオカメラは、データ収集とポリシー推論の両方のための唯一の認識装置として機能する。
ゼロ・トランスファーを可能にするために,デモからオブジェクト・トラジェクトリを抽出し,オブジェクト中心のポイント・クラウド・ポリシーを用いて操作と頭部運動を協調的に予測する。
- 参考スコア(独自算出の注目度): 51.69384671495837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale real-world robot data collection is a prerequisite for bringing robots into everyday deployment. However, existing pipelines often rely on specialized handheld devices to bridge the embodiment gap, which not only increases operator burden and limits scalability, but also makes it difficult to capture the naturally coordinated perception-manipulation behaviors of human daily interaction. This challenge calls for a more natural system that can faithfully capture human manipulation and perception behaviors while enabling zero-shot transfer to robotic platforms. We introduce ActiveGlasses, a system for learning robot manipulation from ego-centric human demonstrations with active vision. A stereo camera mounted on smart glasses serves as the sole perception device for both data collection and policy inference: the operator wears it during bare-hand demonstrations, and the same camera is mounted on a 6-DoF perception arm during deployment to reproduce human active vision. To enable zero-transfer, we extract object trajectories from demonstrations and use an object-centric point-cloud policy to jointly predict manipulation and head movement. Across several challenging tasks involving occlusion and precise interaction, ActiveGlasses achieves zero-shot transfer with active vision, consistently outperforms strong baselines under the same hardware setup, and generalizes across two robot platforms.
- Abstract(参考訳): 大規模な現実世界のロボットデータ収集は、ロボットを日常的な展開に導くための前提条件だ。
しかし、既存のパイプラインは、操作者の負担とスケーラビリティの制限を増大させるだけでなく、人間の日常的相互作用の自然に協調した知覚操作の振る舞いを捉えるのが難しくなる、エンボディメントギャップを橋渡しするための特殊なハンドヘルドデバイスに依存していることが多い。
この課題は、ロボットプラットフォームへのゼロショット転送を可能にしながら、人間の操作や知覚行動を忠実に捉えることができる、より自然なシステムを求めている。
我々は,エゴ中心の人間の実演からロボット操作を学習するシステムであるActiveGlassesを紹介した。
スマートグラスに搭載されたステレオカメラは、データ収集とポリシー推論の両方のための唯一の認識装置として機能し、オペレーターは素手でデモを行うときに着用し、同じカメラは人間のアクティブビジョンを再現するために配置中に6-DoF知覚アームに装着される。
ゼロ・トランスファーを可能にするために,デモからオブジェクト・トラジェクトリを抽出し,オブジェクト中心のポイント・クラウド・ポリシーを用いて操作と頭部運動を協調的に予測する。
隠蔽と正確なインタラクションを含むいくつかの困難なタスクの中で、ActiveGlassesはアクティブビジョンによるゼロショット転送を実現し、同じハードウェアセットアップ下で強いベースラインを一貫して上回り、2つのロボットプラットフォームにまたがる一般化を実現している。
関連論文リスト
- EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration [67.13034606664333]
EgoHumanoidは、エゴセントリックな人間のデモを使って視覚言語アクションポリシーを共同訓練する最初のフレームワークである。
スケーラブルな人的データ収集のためのポータブルシステムを開発した。
論文 参考訳(メタデータ) (2026-02-10T18:59:03Z) - ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations [32.570602111692914]
複雑な双方向操作が可能なロボットに人体でのデモンストレーションを転送する,データ収集システムのためのフレームワークであるActiveUMIを提案する。
ActiveUMIは、ロボットのエンドエフェクターをミラーするセンサー付きコントローラーを備えたポータブルVR遠隔操作キットを結合する。
操作者の意図した頭部の動きをヘッドマウントディスプレイで記録することにより,視覚的注意と操作の関係を学習する。
論文 参考訳(メタデータ) (2025-10-02T02:44:21Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers [2.736848514829367]
人間の視覚は視線によって駆動される非常に活発なプロセスであり、ファベーションを通じてタスク関連領域に注意を向ける。
本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率性とロバスト性を高める方法について検討する。
我々は人間の頭と首の動きをエミュレートするロボットビジョンシステムであるGIAVAを開発し、ファーベレート処理のための視線調整を行う。
論文 参考訳(メタデータ) (2025-07-21T17:44:10Z) - Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - Open-TeleVision: Teleoperation with Immersive Active Visual Feedback [17.505318269362512]
Open-TeleVisionは、オペレーターが立体的にロボットの周囲を積極的に知覚することを可能にする。
このシステムは操作者の腕と手の動きをロボットに反映し、没入感のある体験を作り出す。
本システムの有効性は,長期的かつ正確な4つの課題に対して,データ収集と模倣学習ポリシーの訓練によって検証する。
論文 参考訳(メタデータ) (2024-07-01T17:55:35Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。