論文の概要: GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback
- arxiv url: http://arxiv.org/abs/2104.06600v1
- Date: Wed, 14 Apr 2021 02:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:28:33.574034
- Title: GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback
- Title(参考訳): GANに基づく対話型強化学習と人的評価フィードバック
- Authors: Jie Huang, Rongshun Juan, Randy Gomez, Keisuke Nakamura, Qixin Sha, Bo
He, Guangliang Li
- Abstract要約: 本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
- 参考スコア(独自算出の注目度): 6.367592686247906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (DRL) has achieved great successes in many
simulated tasks. The sample inefficiency problem makes applying traditional DRL
methods to real-world robots a great challenge. Generative Adversarial
Imitation Learning (GAIL) -- a general model-free imitation learning method,
allows robots to directly learn policies from expert trajectories in large
environments. However, GAIL shares the limitation of other imitation learning
methods that they can seldom surpass the performance of demonstrations. In this
paper, to address the limit of GAIL, we propose GAN-Based Interactive
Reinforcement Learning (GAIRL) from demonstration and human evaluative feedback
by combining the advantages of GAIL and interactive reinforcement learning. We
tested our proposed method in six physics-based control tasks, ranging from
simple low-dimensional control tasks -- Cart Pole and Mountain Car, to
difficult high-dimensional tasks -- Inverted Double Pendulum, Lunar Lander,
Hopper and HalfCheetah. Our results suggest that with both optimal and
suboptimal demonstrations, a GAIRL agent can always learn a more stable policy
with optimal or close to optimal performance, while the performance of the GAIL
agent is upper bounded by the performance of demonstrations or even worse than
it. In addition, our results indicate the reason that GAIRL is superior over
GAIL is the complementary effect of demonstrations and human evaluative
feedback.
- Abstract(参考訳): 深部強化学習(DRL)は多くの模擬課題で大きな成功を収めた。
サンプルの非効率性問題は、従来のDRL法を現実世界のロボットに適用することが大きな課題となる。
GAIL(Generative Adversarial Imitation Learning) - モデルなしの模倣学習手法。
しかし、GAILは他の模倣学習手法の限界を共有しており、実演性能に勝ることはめったにない。
本稿では,GAILの限界に対処するため,GAILの利点と対話型強化学習を組み合わせることで,GAILの実証と人的評価フィードバックからGAAIRL(Interactive Reinforcement Learning)を提案する。
提案手法は,カートポールやマウンテンカーといった単純な低次元制御タスクから,逆二重振り子,月面着陸機,ホッパー,ハーフチータまで,6つの物理ベースの制御タスクで検証した。
以上の結果から,gairlエージェントは最適あるいは最適に近い安定なポリシーを常に学習できるが,gailエージェントの性能はデモンストレーションの性能によって上限が高くなるか,それ以上に悪くなっていることが示唆された。
また, GAIRLがGAILより優れている理由として, 実演と評価フィードバックの相補効果が示唆された。
関連論文リスト
- Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Demonstration-Guided Reinforcement Learning with Efficient Exploration
for Task Automation of Surgical Robot [54.80144694888735]
効率的な強化学習アルゴリズムであるDEX(Demonstration-Guided Exploration)を導入する。
本手法は,生産的相互作用を促進するために,高い値で専門家のような行動を推定する。
総合的な手術シミュレーションプラットフォームであるSurRoLによる10ドルの手術操作に関する実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-02-20T05:38:54Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。