論文の概要: $Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2603.12263v1
- Date: Thu, 12 Mar 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.733272
- Title: $Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
- Title(参考訳): ユニバーサルヒューマノイド・ロコ・マニピュレーションに向けたオープン・ファンデーション・モデル
- Authors: Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang,
- Abstract要約: 本稿では,ヒューマノイドのロコ操作課題に対処するオープン基盤モデルを提案する。
我々の研究は、重要だが見落とされがちなデータレシピを特定します。
高品質な人間操作データに対する事前トレーニングと、ドメイン固有の実世界のヒューマノイド軌道のポストトレーニングにより、優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 39.811210435945924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce $Ψ_0$ (Psi-Zero), an open foundation model to address challenging humanoid loco-manipulation tasks. While existing approaches often attempt to address this fundamental problem by co-training on large and diverse human and humanoid data, we argue that this strategy is suboptimal due to the fundamental kinematic and motion disparities between humans and humanoid robots. Therefore, data efficiency and model performance remain unsatisfactory despite the considerable data volume. To address this challenge, \ours\;decouples the learning process to maximize the utility of heterogeneous data sources. Specifically, we propose a staged training paradigm with different learning objectives: First, we autoregressively pre-train a VLM backbone on large-scale egocentric human videos to acquire generalizable visual-action representations. Then, we post-train a flow-based action expert on high-quality humanoid robot data to learn precise robot joint control. Our research further identifies a critical yet often overlooked data recipe: in contrast to approaches that scale with noisy Internet clips or heterogeneous cross-embodiment robot datasets, we demonstrate that pre-training on high-quality egocentric human manipulation data followed by post-training on domain-specific real-world humanoid trajectories yields superior performance. Extensive real-world experiments demonstrate that \ours\ achieves the best performance using only about 800 hours of human video data and 30 hours of real-world robot data, outperforming baselines pre-trained on more than 10$\times$ as much data by over 40\% in overall success rate across multiple tasks. We will open-source the entire ecosystem to the community, including a data processing and training pipeline, a humanoid foundation model, and a real-time action inference engine.
- Abstract(参考訳): 我々は,挑戦的なヒューマノイドのロコ操作タスクに対処するオープンファンデーションモデルである,99.0$(Psi-Zero)を紹介した。
既存のアプローチでは、大規模で多様な人間とヒューマノイドのデータを共同で学習することで、この根本的な問題に対処しようとすることが多いが、人間とヒューマノイドのロボット間の基本的な運動的・運動的相違により、この戦略は最適以下であると我々は主張する。
したがって、膨大なデータ量にもかかわらず、データ効率とモデル性能は相変わらず不満足である。
この課題に対処するため、‘ours\;decoups the learning process to max the utility of heterogeneous data source。
具体的には、異なる学習目標を持つステージドトレーニングパラダイムを提案する: まず、大規模なエゴセントリックな人間のビデオ上でVLMバックボーンを自己回帰的に事前訓練し、一般化可能な視覚行動表現を取得する。
そこで我々は,高品質なヒューマノイドロボットデータに基づくフローベースのアクションエキスパートをポストトレーニングし,正確な関節制御を学習する。
ノイズの多いインターネットクリップや異質なクロスエボディメントロボットデータセットとスケールするアプローチとは対照的に、高品質な人間中心の操作データに対する事前トレーニングと、ドメイン固有の実世界のヒューマノイド軌道のポストトレーニングは、優れたパフォーマンスをもたらすことを実証しています。
大規模な実世界の実験により、‘ours’は人間のビデオデータ約800時間と現実世界のロボットデータ30時間で最高のパフォーマンスを達成し、10ドル以上で事前トレーニングされたベースラインを、複数のタスクで全体の成功率を40%以上上回った。
データ処理とトレーニングパイプライン、ヒューマノイド基盤モデル、リアルタイムアクション推論エンジンなど、エコシステム全体をコミュニティにオープンソース化します。
関連論文リスト
- Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation [113.13282853889818]
SimHumは、シミュレーションされたロボット行動と実世界の人間の観察から視覚的事前を同時に抽出するフレームワークである。
2つの相補的前提に基づき、実世界のタスクにおいて、データ効率と一般化可能なロボット操作を実現する。
論文 参考訳(メタデータ) (2026-01-27T09:41:28Z) - Emergence of Human to Robot Transfer in Vision-Language-Action Models [88.76648919814771]
VLA(Vision-Language-action)モデルは、幅広いオープンワールドの一般化を可能にするが、大規模で多様なデータセットを必要とする。
VLAが十分なシーン、タスク、実施状況で事前訓練された後に、人間とロボットの移動が出現することを示す。
論文 参考訳(メタデータ) (2025-12-27T00:13:11Z) - Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation [16.701354625940308]
Humanoid Everydayは大規模かつ多様なヒューマノイド操作データセットである。
RGB、deep、LiDAR、触覚入力を含む高品質なマルチモーダル感覚データを自然言語アノテーションとともに集約する。
我々は、データセット上で代表的政策学習手法の分析を行い、その強みと限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-10-09T20:43:27Z) - CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations [53.37721117405022]
クロス・エボディメント・デキスタラス・グリップ合成(Cross-Embodiment dexterous grasp synthesis)とは、様々なロボットハンドのグリップを適応的に生成し、最適化することである。
そこで我々は,CEDexを提案する。
これまでで最大のクロス・エボディメント・グラウンド・データセットを構築し、合計20万のグリップを持つ4つのタイプにまたがる500万のオブジェクトからなる。
論文 参考訳(メタデータ) (2025-09-29T12:08:04Z) - Humanoid Policy ~ Human Policy [41.34186233320398]
人間行動変換器(HAT)と呼ばれる人-人-人-行動政策を訓練する。
HATのステートアクション空間は、人間とヒューマノイドロボットの両方に統一されており、ロボットのアクションに微分的に再ターゲットすることができる。
人間のデータは,HATの一般化と堅牢性の両方を改善し,データ収集効率を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:59:09Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation [16.809190349155525]
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,ドメインギャップを埋める新しい適応パラダイムを提案する。
提案手法では,人間とロボットのビデオのセマンティクスを整列させるために,人間ロボットのアライメント損失を用いて,事前学習したモデルをパラメータ効率よくロボット領域に適応させる。
論文 参考訳(メタデータ) (2024-06-20T11:57:46Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。