論文の概要: EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
- arxiv url: http://arxiv.org/abs/2602.16710v1
- Date: Wed, 18 Feb 2026 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.548528
- Title: EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
- Title(参考訳): EgoScale: 異種エゴセントリックな人的データによるデキステラスマニピュレーションのスケーリング
- Authors: Ruijie Zheng, Dantong Niu, Yuqi Xie, Jing Wang, Mengda Xu, Yunfan Jiang, Fernando Castañeda, Fengyuan Hu, You Liang Tan, Letian Fu, Trevor Darrell, Furong Huang, Yuke Zhu, Danfei Xu, Linxi Fan,
- Abstract要約: EgoScaleは、大規模な自我中心の人間データ上に構築された人から器用な操作伝達フレームワークである。
簡単な2段階のトランスファーレシピを導入し, 大規模人体事前訓練と, ライトウェイトアライメントされた人間ロボットのトレーニングを行った。
最終方針は、22個のDoFデキスタラスロボットハンドを使用して、トレーニング済みのベースラインに対して平均成功率を54%向上させる。
- 参考スコア(独自算出の注目度): 114.89243396877453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human behavior is among the most scalable sources of data for learning physical intelligence, yet how to effectively leverage it for dexterous manipulation remains unclear. While prior work demonstrates human to robot transfer in constrained settings, it is unclear whether large scale human data can support fine grained, high degree of freedom dexterous manipulation. We present EgoScale, a human to dexterous manipulation transfer framework built on large scale egocentric human data. We train a Vision Language Action (VLA) model on over 20,854 hours of action labeled egocentric human video, more than 20 times larger than prior efforts, and uncover a log linear scaling law between human data scale and validation loss. This validation loss strongly correlates with downstream real robot performance, establishing large scale human data as a predictable supervision source. Beyond scale, we introduce a simple two stage transfer recipe: large scale human pretraining followed by lightweight aligned human robot mid training. This enables strong long horizon dexterous manipulation and one shot task adaptation with minimal robot supervision. Our final policy improves average success rate by 54% over a no pretraining baseline using a 22 DoF dexterous robotic hand, and transfers effectively to robots with lower DoF hands, indicating that large scale human motion provides a reusable, embodiment agnostic motor prior.
- Abstract(参考訳): 人間の行動は、物理的な知性を学ぶための最もスケーラブルなデータ源の1つだが、それを巧妙な操作のために効果的に活用する方法は、まだ不明である。
従来の研究は、制約された環境で人間からロボットへの移動を実証しているが、大規模な人間のデータがきめ細かな、高度な自由な操作をサポートできるかどうかは不明だ。
EgoScaleは、大規模な自我中心の人間データ上に構築された人から器用な操作伝達フレームワークである。
我々は、20,854時間以上の人間中心型ビデオにラベル付けされたアクションでVLA(Vision Language Action)モデルをトレーニングし、以前の取り組みの20倍以上の規模で、人間のデータスケールとバリデーション損失の間のログ線形スケーリング法則を明らかにする。
この検証損失は、下流のリアルロボットのパフォーマンスと強く相関し、予測可能な監視源として大規模な人的データを確立する。
大規模人体前訓練と軽量人体ロボットのトレーニングという2段階の簡単なトランスファーレシピを導入する。
これにより、強力な長い水平方向操作と、最小限のロボット監督によるワンショットタスク適応が可能となる。
我々の最終方針は、22個のDoFデキスタラスロボットハンドを使用して、トレーニング済みのベースラインに対して平均成功率を54%向上させ、より低いDoFハンドを持つロボットに効果的に転送することで、大規模な人体運動が、再利用可能なエンボディメント非依存モーターを前もって提供することを示す。
関連論文リスト
- $Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation [39.811210435945924]
本稿では,ヒューマノイドのロコ操作課題に対処するオープン基盤モデルを提案する。
我々の研究は、重要だが見落とされがちなデータレシピを特定します。
高品質な人間操作データに対する事前トレーニングと、ドメイン固有の実世界のヒューマノイド軌道のポストトレーニングにより、優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。
人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。
シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:27:44Z) - Humanoid Policy ~ Human Policy [41.34186233320398]
人間行動変換器(HAT)と呼ばれる人-人-人-行動政策を訓練する。
HATのステートアクション空間は、人間とヒューマノイドロボットの両方に統一されており、ロボットのアクションに微分的に再ターゲットすることができる。
人間のデータは,HATの一般化と堅牢性の両方を改善し,データ収集効率を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:59:09Z) - HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。