論文の概要: ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
- arxiv url: http://arxiv.org/abs/2510.01607v1
- Date: Thu, 02 Oct 2025 02:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.245309
- Title: ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations
- Title(参考訳): ActiveUMI:ロボットフリーの人間デモからアクティブ・パーセプションを用いたロボットマニピュレーション
- Authors: Qiyuan Zeng, Chengmeng Li, Jude St. John, Zhongyi Zhou, Junjie Wen, Guorui Feng, Yichen Zhu, Yi Xu,
- Abstract要約: 複雑な双方向操作が可能なロボットに人体でのデモンストレーションを転送する,データ収集システムのためのフレームワークであるActiveUMIを提案する。
ActiveUMIは、ロボットのエンドエフェクターをミラーするセンサー付きコントローラーを備えたポータブルVR遠隔操作キットを結合する。
操作者の意図した頭部の動きをヘッドマウントディスプレイで記録することにより,視覚的注意と操作の関係を学習する。
- 参考スコア(独自算出の注目度): 32.570602111692914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ActiveUMI, a framework for a data collection system that transfers in-the-wild human demonstrations to robots capable of complex bimanual manipulation. ActiveUMI couples a portable VR teleoperation kit with sensorized controllers that mirror the robot's end-effectors, bridging human-robot kinematics via precise pose alignment. To ensure mobility and data quality, we introduce several key techniques, including immersive 3D model rendering, a self-contained wearable computer, and efficient calibration methods. ActiveUMI's defining feature is its capture of active, egocentric perception. By recording an operator's deliberate head movements via a head-mounted display, our system learns the crucial link between visual attention and manipulation. We evaluate ActiveUMI on six challenging bimanual tasks. Policies trained exclusively on ActiveUMI data achieve an average success rate of 70\% on in-distribution tasks and demonstrate strong generalization, retaining a 56\% success rate when tested on novel objects and in new environments. Our results demonstrate that portable data collection systems, when coupled with learned active perception, provide an effective and scalable pathway toward creating generalizable and highly capable real-world robot policies.
- Abstract(参考訳): 複雑な双方向操作が可能なロボットに人体でのデモンストレーションを転送する,データ収集システムのためのフレームワークであるActiveUMIを提案する。
ActiveUMIは、ロボットのエンドエフェクターをミラーするセンサー付きコントローラーを備えたポータブルVR遠隔操作キットを結合し、正確なポーズアライメントを通じて人間ロボットキネマティクスをブリッジする。
モビリティとデータ品質を確保するため,没入型3Dモデルレンダリング,自己完結型ウェアラブルコンピュータ,効率的な校正手法など,いくつかの重要な技術を紹介した。
ActiveUMIの定義する特徴は、アクティブな自我中心の知覚を捉えることである。
操作者の意図した頭部の動きをヘッドマウントディスプレイで記録することにより,視覚的注意と操作の関係を学習する。
我々は,6つの課題に挑戦する2つの課題について,ActiveUMIを評価した。
ActiveUMIデータに特化して訓練されたポリシは、分散タスクにおける平均成功率を70倍にし、新しいオブジェクトや新しい環境でのテストでは56倍の成功率を維持しながら、強力な一般化を示す。
以上の結果から,ポータブルなデータ収集システムは,学習された能動的知覚と組み合わせることで,汎用的で高機能な実世界のロボットポリシーを実現するための,効果的かつスケーラブルな経路を提供することが示された。
関連論文リスト
- Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - VITAL: Interactive Few-Shot Imitation Learning via Visual Human-in-the-Loop Corrections [10.49712834719005]
イミテーション・ラーニング(IL)はロボット工学において強力なアプローチとして登場し、ロボットは人間の行動を模倣することで新しいスキルを身につけることができる。
その可能性にもかかわらず、ILのデータ収集プロセスは、ロジスティックな困難と高品質なデモンストレーションの獲得に伴う高コストのため、依然として重要な課題である。
本稿では,シミュレーションにおけるデータ拡張を通じて,少数の実演から大規模データ生成を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。