論文の概要: Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2010.07467v1
- Date: Thu, 15 Oct 2020 01:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:11:08.190621
- Title: Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach
- Title(参考訳): ヒューマンガイド型ロボット行動学習:GANによる推論に基づく強化学習アプローチ
- Authors: Huixin Zhan, Feng Tao, and Yongcan Cao
- Abstract要約: 本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
- 参考スコア(独自算出の注目度): 2.9764834057085716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human demonstrations can provide trustful samples to train reinforcement
learning algorithms for robots to learn complex behaviors in real-world
environments. However, obtaining sufficient demonstrations may be impractical
because many behaviors are difficult for humans to demonstrate. A more
practical approach is to replace human demonstrations by human queries, i.e.,
preference-based reinforcement learning. One key limitation of the existing
algorithms is the need for a significant amount of human queries because a
large number of labeled data is needed to train neural networks for the
approximation of a continuous, high-dimensional reward function. To reduce and
minimize the need for human queries, we propose a new GAN-assisted human
preference-based reinforcement learning approach that uses a generative
adversarial network (GAN) to actively learn human preferences and then replace
the role of human in assigning preferences. The adversarial neural network is
simple and only has a binary output, hence requiring much less human queries to
train. Moreover, a maximum entropy based reinforcement learning algorithm is
designed to shape the loss towards the desired regions or away from the
undesired regions. To show the effectiveness of the proposed approach, we
present some studies on complex robotic tasks without access to the environment
reward in a typical MuJoCo robot locomotion environment. The obtained results
show our method can achieve a reduction of about 99.8% human time without
performance sacrifice.
- Abstract(参考訳): 人間のデモは、ロボットが現実世界で複雑な行動を学ぶために強化学習アルゴリズムを訓練するための信頼できるサンプルを提供することができる。
しかし、十分な実演を得ることは、多くの行動が人間の実演では難しいため、実用的ではないかもしれない。
より実践的なアプローチは、人間のデモンストレーションを人間のクエリによって置き換えることである。
既存のアルゴリズムの重要な制限の1つは、連続した高次元の報酬関数の近似のためにニューラルネットワークを訓練するために大量のラベル付きデータが必要であるため、大量のヒューマンクエリを必要とすることである。
そこで本研究では、GAN(Generative Adversarial Network)を用いて、人間の嗜好を積極的に学習し、嗜好を割り当てる上での人間の役割を置き換える、新しいGAN支援ヒト嗜好に基づく強化学習手法を提案する。
対向ニューラルネットワークは単純でバイナリ出力しか持たないため、トレーニングする人間のクエリをはるかに少なくすることができる。
さらに、最大エントロピーに基づく強化学習アルゴリズムは、望ましくない領域から所望の領域への損失を形作るように設計されている。
提案手法の有効性を示すために,典型的なムジョコロボットの歩行環境において,環境報酬にアクセスできない複雑なロボットタスクについて検討する。
その結果,性能犠牲を伴わずに約99.8%の人的時間を短縮できることがわかった。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。