論文の概要: HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
- arxiv url: http://arxiv.org/abs/2605.24934v1
- Date: Sun, 24 May 2026 08:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.519779
- Title: HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
- Title(参考訳): 人間中心のビデオからゼロショットのロボットを学習するHumanEgo
- Authors: Zhi, Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos,
- Abstract要約: HumanEgo(ヒューマンエゴ)は、人間同士の対話の実体レベルの表現に各人間のデモを持ち上げることによって、エンボディメントギャップを橋渡しするフレームワークである。
HumanEgoは、ロボットのデータフリー、ハードウェア非依存、データ効率、ゼロショットの人間とロボットの転送を可能にする。
- 参考スコア(独自算出の注目度): 72.30933931931055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human egocentric video captures rich manipulation demonstrations without any robot hardware, yet transferring these skills to robots remains challenging due to the embodiment gap between human and robot in both visual appearance and kinematics. We present HumanEgo, a framework that bridges the embodiment gap by lifting each human demonstration to an entity-level representation of hand-object interaction, and training a flow matching policy with dense auxiliary objectives that amplify supervision from every trajectory. HumanEgo is robot-data-free, hardware-agnostic, data-efficient, and zero-shot human-to-robot transferable. With only 30 minutes of human videos per task, HumanEgo achieves 92.5% average success across four real-world tasks (75% with just 15 minutes), outperforms matched-time robot teleoperation by 41%, and robustly transfers zero-shot across novel robots, cameras, and environments.
- Abstract(参考訳): 人間中心のビデオは、ロボットのハードウェアを使わずにリッチな操作デモを撮影するが、人間とロボットの視覚的外観と運動学の両面での具体的ギャップのため、ロボットにこれらのスキルを移すのは難しい。
本稿では,人体対物相互作用の実体レベル表現に人体デモを引き上げ,各軌道からの監視を増幅する高密度補助目標を用いたフローマッチング政策を訓練することにより,エンボディーメントギャップを橋渡しするHumanEgoを提案する。
HumanEgoは、ロボットのデータフリー、ハードウェア非依存、データ効率、ゼロショットの人間とロボットの転送を可能にする。
タスクあたり30分間の人間のビデオだけで、HumanEgoは4つの現実世界のタスク(75%はわずか15分)で平均92.5%の成功を達成し、マッチしたロボットの遠隔操作を41%上回り、新しいロボット、カメラ、環境間でゼロショットを強力に転送する。
関連論文リスト
- H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - Learning to Transfer Human Hand Skills for Robot Manipulations [12.797862020095856]
本稿では,人間の手の動きのデモから,ロボットに巧妙な操作課題を教える方法を提案する。
本手法では,人間の手の動き,ロボットの手の動き,物体の動きを3Dでマッピングする関節運動多様体を学習し,ある動きを他者から推測する。
論文 参考訳(メタデータ) (2025-01-07T22:33:47Z) - Generalizable Humanoid Manipulation with 3D Diffusion Policies [66.78220965526732]
我々は、ヒューマノイドロボットによる自律的な操作の問題を解決するために、現実世界のロボットシステムを構築している。
本システムは主に,人型ロボットデータを取得するための全身ロボット遠隔操作システムと,高さ調整可能なカートと3D LiDARセンサを備えた25-DoFヒューマノイドロボットプラットフォームの統合である。
1つのシーンで収集されたデータのみを使用し、オンボードコンピューティングのみで、フルサイズのヒューマノイドロボットが様々な現実世界のシナリオで自律的にスキルを発揮できることが示される。
論文 参考訳(メタデータ) (2024-10-14T17:59:00Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans
on Youtube [24.530131506065164]
我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。
ロボットは、人間のオペレーターを1台のRGBカメラで観察し、その動作をリアルタイムで模倣する。
我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。
論文 参考訳(メタデータ) (2022-02-21T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。