論文の概要: Breadcrumbs to the Goal: Goal-Conditioned Exploration from
Human-in-the-Loop Feedback
- arxiv url: http://arxiv.org/abs/2307.11049v1
- Date: Thu, 20 Jul 2023 17:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:48:27.561351
- Title: Breadcrumbs to the Goal: Goal-Conditioned Exploration from
Human-in-the-Loop Feedback
- Title(参考訳): 目標へのパンクラルム:ヒューマン・イン・ザ・ループフィードバックによる目標条件付き探索
- Authors: Marcel Torne, Max Balsells, Zihan Wang, Samedh Desai, Tao Chen, Pulkit
Agrawal, Abhishek Gupta
- Abstract要約: 非熟練者からの低品質フィードバックを利用するHuman Guided Exploration(HuGE)という手法を提案する。
HuGEは、シミュレーションだけでなく、実世界でも、厳密な報酬仕様なしで強化学習の探索をガイドしている。
- 参考スコア(独自算出の注目度): 22.89046164459011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration and reward specification are fundamental and intertwined
challenges for reinforcement learning. Solving sequential decision-making tasks
requiring expansive exploration requires either careful design of reward
functions or the use of novelty-seeking exploration bonuses. Human supervisors
can provide effective guidance in the loop to direct the exploration process,
but prior methods to leverage this guidance require constant synchronous
high-quality human feedback, which is expensive and impractical to obtain. In
this work, we present a technique called Human Guided Exploration (HuGE), which
uses low-quality feedback from non-expert users that may be sporadic,
asynchronous, and noisy. HuGE guides exploration for reinforcement learning not
only in simulation but also in the real world, all without meticulous reward
specification. The key concept involves bifurcating human feedback and policy
learning: human feedback steers exploration, while self-supervised learning
from the exploration data yields unbiased policies. This procedure can leverage
noisy, asynchronous human feedback to learn policies with no hand-crafted
reward design or exploration bonuses. HuGE is able to learn a variety of
challenging multi-stage robotic navigation and manipulation tasks in simulation
using crowdsourced feedback from non-expert users. Moreover, this paradigm can
be scaled to learning directly on real-world robots, using occasional,
asynchronous feedback from human supervisors.
- Abstract(参考訳): 探索と報酬の仕様は強化学習の基本的かつ相互に絡み合った課題である。
逐次的な意思決定タスクの解決には、報酬関数の慎重な設計や、新規な探索ボーナスの使用が必要である。
ヒューマンスーパーバイザーは、探索プロセスを指示するためにループ内で効果的なガイダンスを提供することができるが、このガイダンスを利用する以前の方法は、常に同期した高品質な人間のフィードバックを必要とする。
本研究では,非熟練ユーザからの低品質のフィードバックを,散発的で非同期でノイズの多い,ヒューマンガイド探索(huge)と呼ばれる手法を提案する。
HuGEは、シミュレーションだけでなく、実世界でも、厳密な報酬仕様なしで強化学習の探索をガイドしている。
人間のフィードバックは探索を手助けするが、探索データから自己監督された学習はバイアスのない政策を生み出す。
この手順は、騒々しく非同期な人間のフィードバックを利用して、手作りの報酬設計や探索ボーナスなしでポリシーを学ぶことができる。
HuGEは、専門家でないユーザからのクラウドソースフィードバックを使用して、シミュレーションにおいて、さまざまな困難なマルチステージロボットナビゲーションと操作タスクを学ぶことができる。
さらに、このパラダイムは、人間のスーパーバイザーからの非同期フィードバックを使用して、現実世界のロボットで直接学習することができる。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Deep Exploration for Recommendation Systems [14.937000494745861]
我々はレコメンデーションシステムのための深層探査手法を開発した。
特に、逐次決定問題としてレコメンデーションを定式化する。
本実験は高忠実度産業用シミュレータを用いて行った。
論文 参考訳(メタデータ) (2021-09-26T06:54:26Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。