論文の概要: EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
- arxiv url: http://arxiv.org/abs/2602.10106v1
- Date: Tue, 10 Feb 2026 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.341283
- Title: EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
- Title(参考訳): EgoHumanoid:ロボットフリーのエゴセントリックデモによるロコ操作のロック解除
- Authors: Modi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen,
- Abstract要約: EgoHumanoidは、エゴセントリックな人間のデモを使って視覚言語アクションポリシーを共同訓練する最初のフレームワークである。
スケーラブルな人的データ収集のためのポータブルシステムを開発した。
- 参考スコア(独自算出の注目度): 67.13034606664333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human demonstrations offer rich environmental diversity and scale naturally, making them an appealing alternative to robot teleoperation. While this paradigm has advanced robot-arm manipulation, its potential for the more challenging, data-hungry problem of humanoid loco-manipulation remains largely unexplored. We present EgoHumanoid, the first framework to co-train a vision-language-action policy using abundant egocentric human demonstrations together with a limited amount of robot data, enabling humanoids to perform loco-manipulation across diverse real-world environments. To bridge the embodiment gap between humans and robots, including discrepancies in physical morphology and viewpoint, we introduce a systematic alignment pipeline spanning from hardware design to data processing. A portable system for scalable human data collection is developed, and we establish practical collection protocols to improve transferability. At the core of our human-to-humanoid alignment pipeline lies two key components. The view alignment reduces visual domain discrepancies caused by camera height and perspective variation. The action alignment maps human motions into a unified, kinematically feasible action space for humanoid control. Extensive real-world experiments demonstrate that incorporating robot-free egocentric data significantly outperforms robot-only baselines by 51\%, particularly in unseen environments. Our analysis further reveals which behaviors transfer effectively and the potential for scaling human data.
- Abstract(参考訳): 人間のデモは豊かな環境の多様性を提供し、自然にスケールする。
このパラダイムには先進的なロボットアーム操作があるが、ヒューマノイドのロコ操作におけるより困難でデータ不足の問題の可能性はほとんど解明されていない。
エゴヒューマノイド(EgoHumanoid, EgoHumanoid)は、人間中心の多様なデモと限られた量のロボットデータを用いて視覚-言語-行動ポリシーを共同訓練する最初のフレームワークである。
物理的形態と視点の相違を含む人間とロボットのエンボディメントギャップを埋めるために,ハードウェア設計からデータ処理まで,系統的なアライメントパイプラインを導入する。
スケーラブルな人的データ収集のためのポータブルシステムを開発し,転送性向上のための実用的な収集プロトコルを構築した。
人間から人間へのアライメントパイプラインの中核には、2つの重要なコンポーネントがあります。
ビューアライメントは、カメラの高さと視点の変化によって引き起こされる視覚領域の差異を低減する。
アクションアライメントは、ヒトの動作をヒューマノイド制御のための統合された運動学的に実現可能なアクション空間にマッピングする。
ロボットフリーのエゴセントリックなデータを組み込むことで、特に目に見えない環境では、ロボットのみのベースラインを51%上回ることが実証された。
我々の分析により、どの行動が効果的に伝達され、人間のデータをスケーリングする可能性があるかが明らかになる。
関連論文リスト
- ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data [114.89243396877453]
EgoScaleは、大規模な自我中心の人間データ上に構築された人から器用な操作伝達フレームワークである。
簡単な2段階のトランスファーレシピを導入し, 大規模人体事前訓練と, ライトウェイトアライメントされた人間ロボットのトレーニングを行った。
最終方針は、22個のDoFデキスタラスロボットハンドを使用して、トレーニング済みのベースラインに対して平均成功率を54%向上させる。
論文 参考訳(メタデータ) (2026-02-18T18:59:05Z) - From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。
本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。
我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文 参考訳(メタデータ) (2025-10-01T04:21:12Z) - Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。
このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。
本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文 参考訳(メタデータ) (2024-12-19T18:41:45Z) - Learning from Massive Human Videos for Universal Humanoid Pose Control [46.417054298537195]
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。
我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。
私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
論文 参考訳(メタデータ) (2024-12-18T18:59:56Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。