論文の概要: UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations
- arxiv url: http://arxiv.org/abs/2505.08787v1
- Date: Tue, 13 May 2025 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.707027
- Title: UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations
- Title(参考訳): UniSkill: クロス・エンボディメント・スキルの表現による人間のビデオの省略
- Authors: Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee,
- Abstract要約: UniSkillは、ラベルなしで大規模なクロスボデーメントビデオデータから、エンボディディメントに依存しないスキル表現を学ぶフレームワークである。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
- 参考スコア(独自算出の注目度): 24.232732907295194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mimicry is a fundamental learning mechanism in humans, enabling individuals to learn new tasks by observing and imitating experts. However, applying this ability to robots presents significant challenges due to the inherent differences between human and robot embodiments in both their visual appearance and physical capabilities. While previous methods bridge this gap using cross-embodiment datasets with shared scenes and tasks, collecting such aligned data between humans and robots at scale is not trivial. In this paper, we propose UniSkill, a novel framework that learns embodiment-agnostic skill representations from large-scale cross-embodiment video data without any labels, enabling skills extracted from human video prompts to effectively transfer to robot policies trained only on robot data. Our experiments in both simulation and real-world environments show that our cross-embodiment skills successfully guide robots in selecting appropriate actions, even with unseen video prompts. The project website can be found at: https://kimhanjung.github.io/UniSkill.
- Abstract(参考訳): Mimicryは人間の基本的な学習メカニズムであり、専門家を観察し模倣することによって個人が新しいタスクを学べるようにしている。
しかしながら、ロボットにこの能力を適用することは、視覚的外観と身体的能力の両方において、人間とロボットの体格に固有の違いがあるため、重大な課題を呈している。
従来の方法では、シーンとタスクを共有したクロス・エボディメント・データセットを使用してこのギャップを埋めることができたが、人間とロボットを大規模に並べたデータの収集は容易ではない。
本論文では,ラベルのない大規模ビデオデータからエンボディーズ非依存のスキル表現を学習する新しいフレームワークであるUniSkillを提案し,ロボットデータのみに基づいてトレーニングされたロボットポリシーに,人間の映像プロンプトから抽出したスキルを効果的に移行できるようにする。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
プロジェクトのWebサイトは、https://kimhanjung.github.io/UniSkill.com/で見ることができる。
関連論文リスト
- Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration [21.94699075066712]
ロボットに巧妙な操作スキルを教えるには、何百ものデモをウェアラブルや遠隔操作で集める必要がある。
我々は,デクスタラスな操作ポリシーをトレーニングするための,新しい実-実-実-実-実-実-実-のフレームワークであるHuman2Sim2Robotを提案する。
論文 参考訳(メタデータ) (2025-04-17T03:15:20Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。