論文の概要: HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos
- arxiv url: http://arxiv.org/abs/2602.02473v1
- Date: Mon, 02 Feb 2026 18:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.384378
- Title: HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos
- Title(参考訳): HumanX: ヒューマンビデオによるアジャイルと汎用的なヒューマノイドインタラクションスキルを目指して
- Authors: Yinhuai Wang, Qihan Zhao, Yuen Fui Lau, Runyi Yu, Hok Wai Tsui, Qifeng Chen, Jingbo Wang, Jiangmiao Pang, Ping Tan,
- Abstract要約: 我々はHumanXについて紹介する。HumanXは人間の動画を、ヒューマノイドのための汎用的で現実的なインタラクションスキルにコンパイルするフルスタックのフレームワークである。
HumanXは、従来の方法より8倍高い一般化成功を達成する。
- 参考スコア(独自算出の注目度): 74.43500240121476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling humanoid robots to perform agile and adaptive interactive tasks has long been a core challenge in robotics. Current approaches are bottlenecked by either the scarcity of realistic interaction data or the need for meticulous, task-specific reward engineering, which limits their scalability. To narrow this gap, we present HumanX, a full-stack framework that compiles human video into generalizable, real-world interaction skills for humanoids, without task-specific rewards. HumanX integrates two co-designed components: XGen, a data generation pipeline that synthesizes diverse and physically plausible robot interaction data from video while supporting scalable data augmentation; and XMimic, a unified imitation learning framework that learns generalizable interaction skills. Evaluated across five distinct domains--basketball, football, badminton, cargo pickup, and reactive fighting--HumanX successfully acquires 10 different skills and transfers them zero-shot to a physical Unitree G1 humanoid. The learned capabilities include complex maneuvers such as pump-fake turnaround fadeaway jumpshots without any external perception, as well as interactive tasks like sustained human-robot passing sequences over 10 consecutive cycles--learned from a single video demonstration. Our experiments show that HumanX achieves over 8 times higher generalization success than prior methods, demonstrating a scalable and task-agnostic pathway for learning versatile, real-world robot interactive skills.
- Abstract(参考訳): ロボット工学において、アジャイルで適応的な対話的なタスクを実行するためのヒューマノイドロボットの開発は、長年の課題だった。
現在のアプローチは、現実的なインタラクションデータの不足や、そのスケーラビリティを制限する細かなタスク固有の報酬エンジニアリングの必要性によってボトルネックになっている。
このギャップを狭めるために、HumanXというフルスタックのフレームワークを紹介します。
HumanXは2つの共同設計されたコンポーネントを統合している。XGenはビデオから多種多様な物理的に可視なロボットインタラクションデータを合成し、スケーラブルなデータ拡張をサポートするデータ生成パイプラインである。
バスケットボール、サッカー、バドミントン、カーゴピックアップ、リアクティブファイトアップの5つの異なるドメインで評価され、HumanXは10の異なるスキルを獲得し、それらを物理的なUnitree G1ヒューマノイドにゼロショットで転送することに成功した。
学習された能力には、外見のないポンプフェイクのターンアラウンドファドウェイジャンプショットのような複雑な操作や、連続した10サイクルにわたる人間ロボットのパスシーケンスのような対話的なタスクが含まれます。
実験の結果,HumanXは従来の手法の8倍以上の高速化を実現し,多目的な実世界のロボット対話技術を学ぶためのスケーラブルでタスクに依存しない経路を実証した。
関連論文リスト
- Towards Human-level Intelligence via Human-like Whole-Body Manipulation [10.199110135230674]
Astribot Suiteは、多様な環境にまたがる日常的なタスクを対象とする、全身操作のためのロボット学習スイートである。
以上の結果から,Astribotのエボディメント,遠隔操作インターフェース,学習パイプラインの統合は,実世界の汎用的な全身ロボット操作への重要な一歩であることが示唆された。
論文 参考訳(メタデータ) (2025-07-23T02:23:41Z) - UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations [28.33464371298504]
UniSkillは、ラベルなしで大規模なクロスボデーメントビデオデータから、エンボディディメントに依存しないスキル表現を学ぶフレームワークである。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
論文 参考訳(メタデータ) (2025-05-13T17:59:22Z) - Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots [119.55240471433302]
Habitat 3.0は、家庭環境における協調ロボットタスクを研究するためのシミュレーションプラットフォームである。
複雑な変形可能な体と外観と運動の多様性をモデル化する際の課題に対処する。
Human-in-the-loopインフラストラクチャは、マウス/キーボードまたはVRインターフェースを介してシミュレーションされたロボットとの実際のヒューマンインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-10-19T17:29:17Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。