論文の概要: GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback
- arxiv url: http://arxiv.org/abs/2104.06600v1
- Date: Wed, 14 Apr 2021 02:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:28:33.574034
- Title: GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback
- Title(参考訳): GANに基づく対話型強化学習と人的評価フィードバック
- Authors: Jie Huang, Rongshun Juan, Randy Gomez, Keisuke Nakamura, Qixin Sha, Bo
He, Guangliang Li
- Abstract要約: 本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
- 参考スコア(独自算出の注目度): 6.367592686247906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (DRL) has achieved great successes in many
simulated tasks. The sample inefficiency problem makes applying traditional DRL
methods to real-world robots a great challenge. Generative Adversarial
Imitation Learning (GAIL) -- a general model-free imitation learning method,
allows robots to directly learn policies from expert trajectories in large
environments. However, GAIL shares the limitation of other imitation learning
methods that they can seldom surpass the performance of demonstrations. In this
paper, to address the limit of GAIL, we propose GAN-Based Interactive
Reinforcement Learning (GAIRL) from demonstration and human evaluative feedback
by combining the advantages of GAIL and interactive reinforcement learning. We
tested our proposed method in six physics-based control tasks, ranging from
simple low-dimensional control tasks -- Cart Pole and Mountain Car, to
difficult high-dimensional tasks -- Inverted Double Pendulum, Lunar Lander,
Hopper and HalfCheetah. Our results suggest that with both optimal and
suboptimal demonstrations, a GAIRL agent can always learn a more stable policy
with optimal or close to optimal performance, while the performance of the GAIL
agent is upper bounded by the performance of demonstrations or even worse than
it. In addition, our results indicate the reason that GAIRL is superior over
GAIL is the complementary effect of demonstrations and human evaluative
feedback.
- Abstract(参考訳): 深部強化学習(DRL)は多くの模擬課題で大きな成功を収めた。
サンプルの非効率性問題は、従来のDRL法を現実世界のロボットに適用することが大きな課題となる。
GAIL(Generative Adversarial Imitation Learning) - モデルなしの模倣学習手法。
しかし、GAILは他の模倣学習手法の限界を共有しており、実演性能に勝ることはめったにない。
本稿では,GAILの限界に対処するため,GAILの利点と対話型強化学習を組み合わせることで,GAILの実証と人的評価フィードバックからGAAIRL(Interactive Reinforcement Learning)を提案する。
提案手法は,カートポールやマウンテンカーといった単純な低次元制御タスクから,逆二重振り子,月面着陸機,ホッパー,ハーフチータまで,6つの物理ベースの制御タスクで検証した。
以上の結果から,gairlエージェントは最適あるいは最適に近い安定なポリシーを常に学習できるが,gailエージェントの性能はデモンストレーションの性能によって上限が高くなるか,それ以上に悪くなっていることが示唆された。
また, GAIRLがGAILより優れている理由として, 実演と評価フィードバックの相補効果が示唆された。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。