論文の概要: Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control
- arxiv url: http://arxiv.org/abs/2210.01525v1
- Date: Tue, 4 Oct 2022 11:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:34:39.258914
- Title: Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control
- Title(参考訳): モデル予測制御を用いた強化学習におけるスパースリワードの扱い
- Authors: Murad Dawood, Nils Dengler, Jorge de Heuvel and Maren Bennewitz
- Abstract要約: 強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
- 参考スコア(独自算出の注目度): 9.118706387430883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) has recently proven great success in various
domains. Yet, the design of the reward function requires detailed domain
expertise and tedious fine-tuning to ensure that agents are able to learn the
desired behaviour. Using a sparse reward conveniently mitigates these
challenges. However, the sparse reward represents a challenge on its own, often
resulting in unsuccessful training of the agent. In this paper, we therefore
address the sparse reward problem in RL. Our goal is to find an effective
alternative to reward shaping, without using costly human demonstrations, that
would also be applicable to a wide range of domains. Hence, we propose to use
model predictive control~(MPC) as an experience source for training RL agents
in sparse reward environments. Without the need for reward shaping, we
successfully apply our approach in the field of mobile robot navigation both in
simulation and real-world experiments with a Kuboki Turtlebot 2. We furthermore
demonstrate great improvement over pure RL algorithms in terms of success rate
as well as number of collisions and timeouts. Our experiments show that MPC as
an experience source improves the agent's learning process for a given task in
the case of sparse rewards.
- Abstract(参考訳): 強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計は、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整を必要とする。
スパース報酬を使用することで、これらの課題を軽減できる。
しかし、スパース報酬はそれ自体が挑戦であり、しばしばエージェントの訓練が失敗に終わる。
そこで本稿では,RLにおけるスパース報酬問題に対処する。
私たちのゴールは、コストのかかる人間によるデモンストレーションを使わずに、報酬形成の効果的な代替手段を見つけることです。
そこで我々は,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御~(MPC)を提案する。
報酬形成を必要とせず,クボキ・タートルボット2を用いた実世界実験とシミュレーションの両方において,移動ロボットナビゲーションの分野へのアプローチを成功させた。
さらに、成功率や衝突回数、タイムアウトの点で、純粋なRLアルゴリズムよりも大幅に改善されていることを示す。
実験の結果,経験源としてのMPCは,スパース報酬の場合,与えられたタスクに対するエージェントの学習プロセスを改善することがわかった。
関連論文リスト
- Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。