論文の概要: UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos
- arxiv url: http://arxiv.org/abs/2603.22264v1
- Date: Mon, 23 Mar 2026 17:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.828141
- Title: UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos
- Title(参考訳): UniDex: Egocentric Human Videosによるユニバーサルデクスタースハンドコントロールのためのロボットファウンデーションスイート
- Authors: Gu Zhang, Qicheng Xu, Haozhe Zhang, Jianhan Ma, Long He, Yiming Bao, Zeyu Ping, Zhecheng Yuan, Chenhao Lu, Chengbo Yuan, Tianhai Liang, Xiaoyu Tian, Maanping Shao, Feihong Zhang, Mingyu Ding, Yang Gao, Hao Zhao, Hang Zhao, Huazhe Xu,
- Abstract要約: 実際のロボット遠隔操作データの収集コストのため、デクサラスな操作は依然として困難である。
我々は、ロボット中心の大規模データセットと視覚言語アクション(VLA)ポリシーを結合したロボット基盤スイートであるUniDexを紹介する。
UniDex-Dataset、UniDex-VLA、UniDex-Capは、ユニバーサルデキスタラス操作のためのスケーラブルな基盤スイートを提供する。
- 参考スコア(独自算出の注目度): 65.2981273885678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous manipulation remains challenging due to the cost of collecting real-robot teleoperation data, the heterogeneity of hand embodiments, and the high dimensionality of control. We present UniDex, a robot foundation suite that couples a large-scale robot-centric dataset with a unified vision-language-action (VLA) policy and a practical human-data capture setup for universal dexterous hand control. First, we construct UniDex-Dataset, a robot-centric dataset over 50K trajectories across eight dexterous hands (6--24 DoFs), derived from egocentric human video datasets. To transform human data into robot-executable trajectories, we employ a human-in-the-loop retargeting procedure to align fingertip trajectories while preserving plausible hand-object contacts, and we operate on explicit 3D pointclouds with human hands masked to narrow kinematic and visual gaps. Second, we introduce the Function-Actuator-Aligned Space (FAAS), a unified action space that maps functionally similar actuators to shared coordinates, enabling cross-hand transfer. Leveraging FAAS as the action parameterization, we train UniDex-VLA, a 3D VLA policy pretrained on UniDex-Dataset and finetuned with task demonstrations. In addition, we build UniDex-Cap, a simple portable capture setup that records synchronized RGB-D streams and human hand poses and converts them into robot-executable trajectories to enable human-robot data co-training that reduces reliance on costly robot demonstrations. On challenging tool-use tasks across two different hands, UniDex-VLA achieves 81% average task progress and outperforms prior VLA baselines by a large margin, while exhibiting strong spatial, object, and zero-shot cross-hand generalization. Together, UniDex-Dataset, UniDex-VLA, and UniDex-Cap provide a scalable foundation suite for universal dexterous manipulation.
- Abstract(参考訳): 実際のロボット遠隔操作データ収集のコスト、手片の異質性、制御の高次元性などにより、デクサラスな操作は依然として困難である。
We present a robot foundation suite, a large-scale robot-centric dataset with a unified vision-lang-action (VLA) policy and a practical human-data capture setup for universal dexterous hand control。
まず、ロボット中心のデータセットであるUniDex-Datasetを構築する。
人体データをロボット操作可能な軌跡に変換するために,手指の指先の位置を調整し,手指との接触を安定的に保ちながら,人体をロボット操作可能な軌跡へと変換し,手指を狭い運動と視覚の隙間に隠蔽した明示的な3Dポイントクラウドで操作する。
第2に、機能的類似のアクチュエータを共有座標にマッピングし、クロスハンド転送を可能にする統合アクション空間であるFunction-Actuator-Aligned Space (FAAS)を導入する。
FAASをアクションパラメータ化として活用することで、UniDex-VLA、UniDex-Datasetで事前訓練された3D VLAポリシーを訓練し、タスクのデモンストレーションで微調整する。
さらに、我々は、同期したRGB-Dストリームと人間の手ポーズを記録し、それらをロボット実行可能なトラジェクトリに変換して、コストのかかるロボットのデモンストレーションへの依存を減らす、シンプルなポータブルキャプチャーセットであるUniDex-Capを構築した。
2つの異なる手にわたる挑戦的なツール使用タスクにおいて、UniDex-VLAは平均タスク進捗率81%を達成し、VLA前のベースラインを大きなマージンで上回りながら、強い空間、オブジェクト、ゼロショットのクロスハンド一般化を示す。
UniDex-Dataset、UniDex-VLA、UniDex-Capは、ユニバーサルデクスタラス操作のためのスケーラブルな基盤スイートを提供する。
関連論文リスト
- DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。
DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文 参考訳(メタデータ) (2026-02-10T18:59:02Z) - RoboPaint: From Human Demonstration to Any Robot and Any View [9.083647729839688]
本研究では,人間による実演をロボットが実行可能な環境特化学習データに変換するためのリアルタイムデータ収集とデータ編集パイプラインを提案する。
そこで本研究では,10種類のオブジェクト操作タスクに対して,デキスハンドトラジェクトリの再ターゲットが84%の成功率を達成することを示す。
複雑なデクサラス操作のために,パフォーマンス損失を最小限に抑えた,スケーラブルで費用対効果の高い遠隔操作の代替手段を提供する。
論文 参考訳(メタデータ) (2026-02-05T05:45:12Z) - GR-Dexter Technical Report [32.12634986073996]
視覚言語アクション(VLA)モデルは、言語条件の長いロボット操作を可能にする。
本稿では,VLAに基づく汎用操作のための汎用ハードウェア・モデル・データ・フレームワークGR-Dexterについて述べる。
論文 参考訳(メタデータ) (2025-12-30T13:22:16Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation [39.95361636017463]
周操作は、人間の操作を感知し記録し、実際のロボットへのデータの転送可能性を最大化する、ロボットデータ収集のパラダイムである。
我々は,このパラダイムを,自然環境における多種多様な操作タスクのためのリッチな感覚(視覚+触覚)データ収集能力の最大化を目的とした,受動的手外骨格であるDEXOPに実装する。
論文 参考訳(メタデータ) (2025-09-04T17:57:13Z) - RealDex: Towards Human-like Grasping for Robotic Dexterous Hand [64.33746404551343]
本稿では,人間の行動パターンを取り入れた手の動きを正確に把握する先駆的データセットであるRealDexを紹介する。
RealDexは、現実のシナリオにおける認識、認識、操作を自動化するためのヒューマノイドロボットを進化させる上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-21T14:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。