論文の概要: Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2107.08888v1
- Date: Mon, 19 Jul 2021 14:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 19:00:13.951954
- Title: Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning
- Title(参考訳): 強化学習における効率的探索のためのマルチモーダル報酬形成
- Authors: Mingqi Yuan, Mon-on Pun, Yi Chen, Dong Wang, Haojun Li
- Abstract要約: IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
- 参考スコア(独自算出の注目度): 8.810296389358134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining long-term exploration ability remains one of the challenges of
deep reinforcement learning (DRL). In practice, the reward shaping-based
approaches are leveraged to provide intrinsic rewards for the agent to
incentivize motivation. However, most existing IRS modules rely on attendant
models or additional memory to record and analyze learning procedures, which
leads to high computational complexity and low robustness. Moreover, they
overemphasize the influence of a single state on exploration, which cannot
evaluate the exploration performance from a global perspective. To tackle the
problem, state entropy-based methods are proposed to encourage the agent to
visit the state space more equitably. However, the estimation error and sample
complexity are prohibitive when handling environments with high-dimensional
observation. In this paper, we introduce a novel metric entitled Jain's
fairness index (JFI) to replace the entropy regularizer, which requires no
additional models or memory. In particular, JFI overcomes the vanishing
intrinsic rewards problem and can be generalized into arbitrary tasks.
Furthermore, we use a variational auto-encoder (VAE) model to capture the
life-long novelty of states. Finally, the global JFI score and local state
novelty are combined to form a multimodal intrinsic reward, controlling the
exploration extent more precisely. Finally, extensive simulation results
demonstrate that our multimodal reward shaping (MMRS) method can achieve higher
performance in contrast to other benchmark schemes.
- Abstract(参考訳): 長期探査能力を維持することは、深層強化学習(DRL)の課題の1つである。
実際には、報酬形成に基づくアプローチを利用して、エージェントがモチベーションを動機付けるための本質的な報酬を提供する。
しかし、既存のIRSモジュールのほとんどは、学習手順を記録・解析するためにアテンダントモデルや追加メモリに依存しており、高い計算複雑性とロバスト性をもたらす。
さらに,グローバルな視点から探索性能を評価することができない,単一の状態が探索に与える影響を過度に強調する。
この問題に対処するために,状態エントロピーに基づく手法を提案し,エージェントが状態空間を公平に訪問することを奨励する。
しかし, 高次元観測環境を扱う場合, 推定誤差やサンプルの複雑さは認められない。
本稿では,余分なモデルやメモリを必要としないエントロピー正規化器の代わりに,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
特に、JFIは本質的な報酬問題を克服し、任意のタスクに一般化することができる。
さらに, 変分オートエンコーダ(vae)モデルを用いて, 状態の終生の新規性を把握する。
最後に、グローバルjfiスコアとローカルステートノベルティを組み合わせることで、探索範囲をより正確に制御するマルチモーダル固有の報酬を形成する。
最後に,Multimodal reward shaping (MMRS)法は,他のベンチマーク手法と比較して高い性能が得られることを示す。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - R\'enyi State Entropy for Exploration Acceleration in Reinforcement
Learning [6.72733760405596]
本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。
特に、エントロピー推定のために$k$-nearest 隣人に$k$-value 探索法を導入し、推定精度を保証するために$k$-value 探索法を設計する。
論文 参考訳(メタデータ) (2022-03-08T07:38:35Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。