論文の概要: Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.06411v1
- Date: Tue, 13 Apr 2021 14:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 03:57:32.394126
- Title: Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning
- Title(参考訳): 強化学習における効率向上のためのサブゴールベースリワード整形
- Authors: Takato Okudo and Seiji Yamada
- Abstract要約: 我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning, which acquires a policy maximizing long-term rewards,
has been actively studied. Unfortunately, this learning type is too slow and
difficult to use in practical situations because the state-action space becomes
huge in real environments. Many studies have incorporated human knowledge into
reinforcement Learning. Though human knowledge on trajectories is often used, a
human could be asked to control an AI agent, which can be difficult. Knowledge
on subgoals may lessen this requirement because humans need only to consider a
few representative states on an optimal trajectory in their minds. The
essential factor for learning efficiency is rewards. Potential-based reward
shaping is a basic method for enriching rewards. However, it is often difficult
to incorporate subgoals for accelerating learning over potential-based reward
shaping. This is because the appropriate potentials are not intuitive for
humans. We extend potential-based reward shaping and propose a subgoal-based
reward shaping. The method makes it easier for human trainers to share their
knowledge of subgoals. To evaluate our method, we obtained a subgoal series
from participants and conducted experiments in three domains,
four-rooms(discrete states and discrete actions), pinball(continuous and
discrete), and picking(both continuous). We compared our method with a baseline
reinforcement learning algorithm and other subgoal-based methods, including
random subgoal and naive subgoal-based reward shaping. As a result, we found
out that our reward shaping outperformed all other methods in learning
efficiency.
- Abstract(参考訳): 長期報酬を最大化する政策を取得する強化学習が活発に研究されている。
残念なことに、この学習タイプは、実際の環境では状態アクション空間が巨大になるため、現実的な状況ではあまりにも遅く、使いづらい。
多くの研究が人的知識を強化学習に取り入れている。
軌道に関する人間の知識はよく用いられるが、aiエージェントを制御するように人間に依頼することは困難である。
サブゴールに関する知識は、人間が心の中で最適な軌道についていくつかの代表的状態を考える必要があるため、この要件を減少させる可能性がある。
効率を学ぶための重要な要素は報酬です。
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
しかし、潜在的報酬形成よりも学習を促進するためにサブゴールを組み込むことは、しばしば困難である。
これは、適切なポテンシャルは人間にとって直感的ではないからである。
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
この方法は、人間のトレーナーがサブゴールの知識を共有するのを容易にする。
提案手法を評価するために,被験者からサブシリーズを取得し,4室(離散状態と離散動作),ピンボール(連続的および離散的),ピッキング(両方連続)の3領域で実験を行った。
本手法をベースライン強化学習アルゴリズムおよびランダムサブゴールおよびナイーブサブゴールに基づく報酬形成を含む他のサブゴールベース手法と比較した。
その結果,学習効率の面では,報酬形成が他の手法よりも優れていることがわかった。
関連論文リスト
- Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Reward Shaping with Subgoals for Social Navigation [7.6146285961466]
ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。
強化学習は、低い計算コストで予測フェーズのアクションを選択することができる。
学習を加速するサブゴールを用いた報酬形成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T13:52:58Z) - Reward Shaping with Dynamic Trajectory Aggregation [7.6146285961466]
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-04-13T13:07:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。