論文の概要: Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback
- arxiv url: http://arxiv.org/abs/2310.20608v1
- Date: Tue, 31 Oct 2023 16:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:02:18.643953
- Title: Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback
- Title(参考訳): 非同期人間フィードバックによる自律ロボット強化学習
- Authors: Max Balsells, Marcel Torne, Zihan Wang, Samedh Desai, Pulkit Agrawal,
Abhishek Gupta
- Abstract要約: GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
- 参考スコア(独自算出の注目度): 27.223725464754853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ideally, we would place a robot in a real-world environment and leave it
there improving on its own by gathering more experience autonomously. However,
algorithms for autonomous robotic learning have been challenging to realize in
the real world. While this has often been attributed to the challenge of sample
complexity, even sample-efficient techniques are hampered by two major
challenges - the difficulty of providing well "shaped" rewards, and the
difficulty of continual reset-free training. In this work, we describe a system
for real-world reinforcement learning that enables agents to show continual
improvement by training directly in the real world without requiring
painstaking effort to hand-design reward functions or reset mechanisms. Our
system leverages occasional non-expert human-in-the-loop feedback from remote
users to learn informative distance functions to guide exploration while
leveraging a simple self-supervised learning algorithm for goal-directed policy
learning. We show that in the absence of resets, it is particularly important
to account for the current "reachability" of the exploration policy when
deciding which regions of the space to explore. Based on this insight, we
instantiate a practical learning system - GEAR, which enables robots to simply
be placed in real-world environments and left to train autonomously without
interruption. The system streams robot experience to a web interface only
requiring occasional asynchronous feedback from remote, crowdsourced,
non-expert humans in the form of binary comparative feedback. We evaluate this
system on a suite of robotic tasks in simulation and demonstrate its
effectiveness at learning behaviors both in simulation and the real world.
Project website https://guided-exploration-autonomous-rl.github.io/GEAR/.
- Abstract(参考訳): 理想的には、ロボットを現実世界の環境に置くことで、より多くの経験を自律的に収集することで、それ自身で改善することです。
しかし、自律ロボット学習のアルゴリズムは現実の世界では実現が難しい。
これはしばしばサンプル複雑性の課題によるものであるが、サンプル効率のよいテクニックでさえ、十分な"形の"報酬を提供することの難しさと、継続的なリセットなしトレーニングの難しさの2つの大きな課題によって妨げられている。
本研究では,エージェントが報酬関数やリセット機構を手作業で設計する手間を省くことなく,実世界で直接トレーニングすることで継続的な改善を示すことができる実世界の強化学習システムについて述べる。
本システムでは,目標指向政策学習のための単純な自己教師付き学習アルゴリズムを活用しつつ,遠隔ユーザからの非熟練なヒューマン・イン・ザ・ループフィードバックを利用して探索のガイドを行う。
リセットがない場合、宇宙のどの領域を探索するかを決める際に、探査政策の現在の「到達可能性」を考慮することが特に重要であることを示す。
この知見に基づいて,実用的な学習システムであるgearをインスタンス化し,ロボットを実環境に配置し,中断することなく自律的にトレーニングできるようにする。
このシステムは、リモートでクラウドソースされた非専門家からの非同期フィードバックのみをバイナリ比較フィードバックという形で、ロボットエクスペリエンスをWebインターフェースにストリームする。
本システムは,シミュレーションにおけるロボットタスクのスイート上で評価し,シミュレーションと実世界の両方における学習行動の有効性を実証する。
プロジェクトウェブサイト https://guided-exploration-autonomous-rl.github.io/GEAR/
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Dual-Arm Adversarial Robot Learning [0.6091702876917281]
ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。
このセットアップの潜在的なメリットと、追求できる課題と研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-10-15T12:51:57Z) - ReLMM: Practical RL for Learning Mobile Manipulation Skills Using Only
Onboard Sensors [64.2809875343854]
ロボットは、ナビゲーションと把握の組み合わせを必要とするスキルを自律的に学習する方法について研究する。
我々のシステムであるReLMMは、環境機器を使わずに、現実世界のプラットフォームで継続的に学習することができる。
グラウンドカリキュラムトレーニングフェーズの後、ReLMMは、現実世界のトレーニングの約40時間で、ナビゲーションと完全に自動的なグリップを学習できる。
論文 参考訳(メタデータ) (2021-07-28T17:59:41Z) - Low Dimensional State Representation Learning with Robotics Priors in
Continuous Action Spaces [8.692025477306212]
強化学習アルゴリズムは、エンドツーエンドで複雑なロボティクスタスクを解くことができることが証明されている。
本稿では,ロボットの生の知覚情報から得られる高次元の観察から,低次元状態表現の学習と最適ポリシーの学習を組み合わせた枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-04T15:42:01Z) - LaND: Learning to Navigate from Disengagements [158.6392333480079]
本研究では,学習者に対する学習支援のための強化学習手法(LaND)を提案する。
LaNDは現在の知覚的観察から、どのアクションが解離につながるかを予測するニューラルネットワークモデルを学び、テスト時計画で解離を回避するアクションを実行する。
以上の結果から,LaNDは多種多様な現実世界の歩道環境を学習し,模倣学習と強化学習の両方に優れることを示した。
論文 参考訳(メタデータ) (2020-10-09T17:21:42Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z) - Efficient reinforcement learning control for continuum robots based on
Inexplicit Prior Knowledge [3.3645162441357437]
本稿では,未熟な事前知識に基づく効率的な強化学習手法を提案する。
本手法を用いることで、腱駆動ロボットのアクティブな視覚追跡と距離維持を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。