論文の概要: Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2301.10886v4
- Date: Fri, 7 Jul 2023 04:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:43:47.004162
- Title: Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における探索のための自己報酬の自動生成
- Authors: Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng
- Abstract要約: 本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
- 参考スコア(独自算出の注目度): 64.8463574294237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and
adaptively provides high-quality intrinsic rewards to enhance exploration in
reinforcement learning (RL). More specifically, AIRS selects shaping function
from a predefined set based on the estimated task return in real-time,
providing reliable exploration incentives and alleviating the biased objective
problem. Moreover, we develop an intrinsic reward toolkit to provide efficient
and reliable implementations of diverse intrinsic reward approaches. We test
AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite.
Extensive simulation demonstrates that AIRS can outperform the benchmarking
schemes and achieve superior performance with simple architecture.
- Abstract(参考訳): 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。
より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。
さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。
我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。
拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Regularity as Intrinsic Reward for Free Play [24.29379265146469]
本稿では,本質的な強化学習のための新たな報奨信号として正規性を提案する。
Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルベース強化学習内での運用が可能となった。
論文 参考訳(メタデータ) (2023-12-03T18:18:44Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。