論文の概要: Human-to-Robot Imitation in the Wild
- arxiv url: http://arxiv.org/abs/2207.09450v1
- Date: Tue, 19 Jul 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:02:18.143713
- Title: Human-to-Robot Imitation in the Wild
- Title(参考訳): 野生の人間からロボットへの模倣
- Authors: Shikhar Bahl, Abhinav Gupta, Deepak Pathak
- Abstract要約: 本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
- 参考スコア(独自算出の注目度): 50.49660984318492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We approach the problem of learning by watching humans in the wild. While
traditional approaches in Imitation and Reinforcement Learning are promising
for learning in the real world, they are either sample inefficient or are
constrained to lab settings. Meanwhile, there has been a lot of success in
processing passive, unstructured human data. We propose tackling this problem
via an efficient one-shot robot learning algorithm, centered around learning
from a third-person perspective. We call our method WHIRL: In-the-Wild Human
Imitating Robot Learning. WHIRL extracts a prior over the intent of the human
demonstrator, using it to initialize our agent's policy. We introduce an
efficient real-world policy learning scheme that improves using interactions.
Our key contributions are a simple sampling-based policy optimization approach,
a novel objective function for aligning human and robot videos as well as an
exploration method to boost sample efficiency. We show one-shot generalization
and success in real-world settings, including 20 different manipulation tasks
in the wild. Videos and talk at https://human2robot.github.io
- Abstract(参考訳): 我々は野生の人間を見て学習する問題にアプローチする。
ImitationとReinforcement Learningの伝統的なアプローチは現実世界での学習には有望だが、サンプル非効率であるか、ラボの設定に制約されている。
一方、受動的で構造化されていない人間のデータを処理することには、多くの成功があります。
本研究では,3人称視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを用いてこの問題に取り組むことを提案する。
We called our method WHIRL: In-the-Wild Human Imitating Robot Learning。
WHIRLは、エージェントのポリシーを初期化するために、人間のデモレーターの意図を優先的に抽出する。
我々は,対話の利用を改善する効率的な実世界の政策学習方式を提案する。
我々の重要な貢献は、単純なサンプリングベースのポリシー最適化アプローチ、人間とロボットのビデオの整列のための新しい客観的機能、サンプル効率を高めるための探索方法である。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
ビデオと講演はhttps://human2robot.github.io
関連論文リスト
- Learning Strategies For Successful Crowd Navigation [0.0]
我々は、ニューラルネットワークを用いて、ロボットで特定の戦略を学習する群集ナビゲーションに焦点を当てた。
CNNはシーンのトップダウン画像を入力として、ロボットが速度と角度で次のアクションを出力する。
論文 参考訳(メタデータ) (2024-04-09T18:25:21Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Structured World Models from Human Videos [45.08503470821952]
私たちは、現実世界で、複雑で一般的な行動を直接学習する問題に取り組みます。
そこで本研究では,ロボットが操作スキルを効率よく学習する手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:32Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Inducing Structure in Reward Learning by Learning Features [31.413656752926208]
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
論文 参考訳(メタデータ) (2022-01-18T16:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。