論文の概要: Learning to Play by Imitating Humans
- arxiv url: http://arxiv.org/abs/2006.06874v1
- Date: Thu, 11 Jun 2020 23:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:42:14.447114
- Title: Learning to Play by Imitating Humans
- Title(参考訳): 人間を模倣して遊び方を学ぶ
- Authors: Rostam Dinyari and Pierre Sermanet and Corey Lynch
- Abstract要約: 遠隔操作型プレイデータ上での自己監督制御により,多様なスキルの獲得が可能であることを示す。
比較的少量の人間の遊びに対して行動的クローン化ポリシーを訓練することにより、我々は大量のクローン化プレイデータを自律的に生成する。
この拡張データセットでトレーニングされた汎用目標条件ポリシーは、本来の人的データでトレーニングされた政策よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 8.209859328381269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring multiple skills has commonly involved collecting a large number of
expert demonstrations per task or engineering custom reward functions. Recently
it has been shown that it is possible to acquire a diverse set of skills by
self-supervising control on top of human teleoperated play data. Play is rich
in state space coverage and a policy trained on this data can generalize to
specific tasks at test time outperforming policies trained on individual expert
task demonstrations. In this work, we explore the question of whether robots
can learn to play to autonomously generate play data that can ultimately
enhance performance. By training a behavioral cloning policy on a relatively
small quantity of human play, we autonomously generate a large quantity of
cloned play data that can be used as additional training. We demonstrate that a
general purpose goal-conditioned policy trained on this augmented dataset
substantially outperforms one trained only with the original human data on 18
difficult user-specified manipulation tasks in a simulated robotic tabletop
environment. A video example of a robot imitating human play can be seen here:
https://learning-to-play.github.io/videos/undirected_play1.mp4
- Abstract(参考訳): 複数のスキルの獲得は、通常、タスク毎の多数の専門家のデモンストレーションやエンジニアリングカスタム報酬関数の収集にかかわる。
近年,遠隔操作型プレイデータ上での自己監督制御により,多様なスキルの獲得が可能であることが示されている。
プレイは州空間のカバレッジに富み、このデータに基づいてトレーニングされたポリシーは、テスト時に特定のタスクに一般化することができる。
本研究では,ロボットが自律的にプレイデータを生成することで,最終的にパフォーマンスを向上させることができるかどうかを考察する。
比較的少量の人間の遊びについて行動クローンポリシーを訓練することにより、追加のトレーニングとして使用できる大量のクローンプレイデータを自律的に生成する。
この拡張データセット上でトレーニングされた汎用目標条件ポリシーは,シミュレーションロボットテーブル上環境における18の難解なユーザ特定操作タスクにおいて,元の人間データのみでトレーニングされたポリシーを実質的に上回っている。
人間の遊びを模倣するロボットの例を以下に示す。 https://learning-to-play.github.io/videos/undirected_play1.mp4
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。