論文の概要: Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.01488v1
- Date: Thu, 2 Mar 2023 18:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:59:07.002782
- Title: Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning
- Title(参考訳): 自己改善型ロボット: エンドツーエンドの自律型バイスモータ強化学習
- Authors: Archit Sharma, Ahmed M. Ahmed, Rehaan Ahmad, Chelsea Finn
- Abstract要約: 模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
- 参考スコア(独自算出の注目度): 54.636562516974884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In imitation and reinforcement learning, the cost of human supervision limits
the amount of data that robots can be trained on. An aspirational goal is to
construct self-improving robots: robots that can learn and improve on their
own, from autonomous interaction with minimal human supervision or oversight.
Such robots could collect and train on much larger datasets, and thus learn
more robust and performant policies. While reinforcement learning offers a
framework for such autonomous learning via trial-and-error, practical
realizations end up requiring extensive human supervision for reward function
design and repeated resetting of the environment between episodes of
interactions. In this work, we propose MEDAL++, a novel design for
self-improving robotic systems: given a small set of expert demonstrations at
the start, the robot autonomously practices the task by learning to both do and
undo the task, simultaneously inferring the reward function from the
demonstrations. The policy and reward function are learned end-to-end from
high-dimensional visual inputs, bypassing the need for explicit state
estimation or task-specific pre-training for visual encoders used in prior
work. We first evaluate our proposed algorithm on a simulated non-episodic
benchmark EARL, finding that MEDAL++ is both more data efficient and gets up to
30% better final performance compared to state-of-the-art vision-based methods.
Our real-robot experiments show that MEDAL++ can be applied to manipulation
problems in larger environments than those considered in prior work, and
autonomous self-improvement can improve the success rate by 30-70% over
behavior cloning on just the expert data. Code, training and evaluation videos
along with a brief overview is available at:
https://architsharma97.github.io/self-improving-robots/
- Abstract(参考訳): 模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
目的は、人間による最小限の監督や監視との自律的な相互作用から、自分自身で学び、改善できるロボットを構築することである。
このようなロボットは、より大きなデータセットを収集し、訓練することで、より堅牢でパフォーマンスの高いポリシーを学ぶことができる。
強化学習は、試行錯誤による自律学習のためのフレームワークを提供するが、実用的な実現には、報酬機能設計のための広範な人間の監督が必要となり、対話のエピソード間の環境の再設定が繰り返される。
本研究は,自己改善型ロボットシステムのための新しい設計であるMEDAL++を提案する。ロボットは,当初,少数の専門家によるデモンストレーションを前提として,タスクの実施と解除を学習することでタスクを自律的に実行し,同時にデモンストレーションから報酬関数を推定する。
ポリシーと報酬関数は高次元視覚入力からエンドツーエンドに学習され、前処理で使用される視覚エンコーダの明示的な状態推定やタスク固有の事前学習の必要性を回避している。
我々はまず,提案アルゴリズムをシミュレーションされた非エポゾディックベンチマークEARLで評価し,MEDAL++の方がデータ効率が良く,最先端のビジョンベース手法に比べて30%高い結果を得た。
実ロボット実験の結果,desald++は従来の作業よりも大きな環境における操作問題に適用可能であり,自律的自己改善は,専門家データのみを用いた行動クローンよりも30~70%向上することが示された。
コード、トレーニング、評価ビデオと簡単な概要は、https://architsharma97.github.io/self-improving-robots/で見ることができる。
関連論文リスト
- Generalized Robot Learning Framework [10.03174544844559]
本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。
我々は,産業用ロボットにおいても,デプロイ可能な模倣学習をうまく適用できることを実証した。
論文 参考訳(メタデータ) (2024-09-18T15:34:31Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。