論文の概要: DayDreamer: World Models for Physical Robot Learning
- arxiv url: http://arxiv.org/abs/2206.14176v1
- Date: Tue, 28 Jun 2022 17:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:29:10.974074
- Title: DayDreamer: World Models for Physical Robot Learning
- Title(参考訳): DayDreamer:物理ロボット学習の世界モデル
- Authors: Philipp Wu, Alejandro Escontrela, Danijar Hafner, Ken Goldberg, Pieter
Abbeel
- Abstract要約: 深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
- 参考スコア(独自算出の注目度): 142.11031132529524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To solve tasks in complex environments, robots need to learn from experience.
Deep reinforcement learning is a common approach to robot learning but requires
a large amount of trial and error to learn, limiting its deployment in the
physical world. As a consequence, many advances in robot learning rely on
simulators. On the other hand, learning inside of simulators fails to capture
the complexity of the real world, is prone to simulator inaccuracies, and the
resulting behaviors do not adapt to changes in the world. The Dreamer algorithm
has recently shown great promise for learning from small amounts of interaction
by planning within a learned world model, outperforming pure reinforcement
learning in video games. Learning a world model to predict the outcomes of
potential actions enables planning in imagination, reducing the amount of trial
and error needed in the real environment. However, it is unknown whether
Dreamer can facilitate faster learning on physical robots. In this paper, we
apply Dreamer to 4 robots to learn online and directly in the real world,
without simulators. Dreamer trains a quadruped robot to roll off its back,
stand up, and walk from scratch and without resets in only 1 hour. We then push
the robot and find that Dreamer adapts within 10 minutes to withstand
perturbations or quickly roll over and stand back up. On two different robotic
arms, Dreamer learns to pick and place multiple objects directly from camera
images and sparse rewards, approaching human performance. On a wheeled robot,
Dreamer learns to navigate to a goal position purely from camera images,
automatically resolving ambiguity about the robot orientation. Using the same
hyperparameters across all experiments, we find that Dreamer is capable of
online learning in the real world, establishing a strong baseline. We release
our infrastructure for future applications of world models to robot learning.
- Abstract(参考訳): 複雑な環境でタスクを解決するには、ロボットは経験から学ぶ必要がある。
深層強化学習はロボット学習の一般的なアプローチであるが、学習には大量の試行錯誤が必要であり、物理的な世界への展開を制限する。
その結果、ロボット学習の進歩の多くはシミュレータに依存している。
一方、シミュレータの内部での学習は現実世界の複雑さを捉えるのに失敗し、不正確なシミュレーションをしがちであり、その結果の振る舞いは世界の変化に適応しない。
近年のDreamerアルゴリズムは、学習された世界モデル内で計画し、ビデオゲームにおける純粋な強化学習を上回ることで、少量のインタラクションから学ぶことを約束している。
潜在的な行動の結果を予測するための世界モデルを学ぶことは、想像力の計画を可能にし、実際の環境での試行とエラーの量を減らす。
しかし、Dreamerが物理ロボットの学習を高速化できるかどうかは不明である。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインで直接学習する。
dreamerは四足歩行ロボットを訓練して、背中を転がし、立ち上がり、スクラッチから歩き、わずか1時間でリセットする。
そしてロボットを押して、ドリーマーが10分以内に摂動に耐えるか、素早く転がって立ち上がるかを見つける。
2つの異なるロボットアームで、Dreamerはカメラ画像から直接複数のオブジェクトを選択し、配置することを学び、人間のパフォーマンスに近づく。
車輪付きのロボットでDreamerは、カメラ画像から純粋にゴール位置まで移動し、ロボットの向きに関する曖昧さを自動的に解消する。
すべての実験で同じハイパーパラメータを使って、Dreamerは現実世界でオンライン学習が可能で、強力なベースラインを確立しています。
ロボット学習への世界モデルの将来の応用のためのインフラをリリースする。
関連論文リスト
- Structured World Models from Human Videos [45.08503470821952]
私たちは、現実世界で、複雑で一般的な行動を直接学習する問題に取り組みます。
そこで本研究では,ロボットが操作スキルを効率よく学習する手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T17:59:32Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots [87.32145104894754]
四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラを訓練するためのフレームワークを提案する。
本フレームワークは,多種多様な四足歩行ロボットに展開可能な汎用ロコモーションコントローラを合成する。
我々のモデルは、より一般的な制御戦略を取得し、新しいシミュレーションロボットや実世界のロボットに直接移行できることを示す。
論文 参考訳(メタデータ) (2022-09-12T15:14:32Z) - Back to Reality for Imitation Learning [8.57914821832517]
模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。
私たちは、現実世界のロボット学習のより良い指標は時間効率であり、人間の真のコストをモデル化するものだと考えています。
論文 参考訳(メタデータ) (2021-11-25T02:03:52Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Continual Learning of Visual Concepts for Robots through Limited
Supervision [9.89901717499058]
私の研究は、動的に見えない環境で継続的に学習するロボットの開発に焦点を当てています。
私は、ベンチマークデータセットで最新の結果を生成する機械学習モデルを開発します。
論文 参考訳(メタデータ) (2021-01-26T01:26:07Z) - A Survey of Behavior Learning Applications in Robotics -- State of the Art and Perspectives [44.45953630612019]
最近の多くの領域での機械学習の成功は圧倒的に多い。
実際のロボットで学んだり使ったりした行動について、幅広い概要を述べます。
論文 参考訳(メタデータ) (2019-06-05T07:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。