論文の概要: Potential-Based Intrinsic Motivation: Preserving Optimality With Complex, Non-Markovian Shaping Rewards
- arxiv url: http://arxiv.org/abs/2410.12197v1
- Date: Wed, 16 Oct 2024 03:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:41:46.724703
- Title: Potential-Based Intrinsic Motivation: Preserving Optimality With Complex, Non-Markovian Shaping Rewards
- Title(参考訳): ポテンシャルに基づく内在的動機づけ--複素非マルコフ整形逆流による最適性を保つ
- Authors: Grant C. Forbes, Leonardo Villalobos-Arias, Jianxun Wang, Arnav Jhala, David L. Roberts,
- Abstract要約: 内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また,EM報酬をポテンシャルベース形式に変換するためのPBIM法とGRM法について述べる。
- 参考スコア(独自算出の注目度): 2.2169849640518153
- License:
- Abstract: Recently there has been a proliferation of intrinsic motivation (IM) reward-shaping methods to learn in complex and sparse-reward environments. These methods can often inadvertently change the set of optimal policies in an environment, leading to suboptimal behavior. Previous work on mitigating the risks of reward shaping, particularly through potential-based reward shaping (PBRS), has not been applicable to many IM methods, as they are often complex, trainable functions themselves, and therefore dependent on a wider set of variables than the traditional reward functions that PBRS was developed for. We present an extension to PBRS that we prove preserves the set of optimal policies under a more general set of functions than has been previously proven. We also present {\em Potential-Based Intrinsic Motivation} (PBIM) and {\em Generalized Reward Matching} (GRM), methods for converting IM rewards into a potential-based form that are useable without altering the set of optimal policies. Testing in the MiniGrid DoorKey and Cliff Walking environments, we demonstrate that PBIM and GRM successfully prevent the agent from converging to a suboptimal policy and can speed up training. Additionally, we prove that GRM is sufficiently general as to encompass all potential-based reward shaping functions. This paper expands on previous work introducing the PBIM method, and provides an extension to the more general method of GRM, as well as additional proofs, experimental results, and discussion.
- Abstract(参考訳): 近年,複雑・スパース・リワード環境下で学習する内在的モチベーション(IM)報酬形成法が急増している。
これらの手法は、しばしば環境における最適なポリシーの集合を不注意に変更し、最適以下の行動を引き起こす。
報酬形成のリスクを軽減するための従来の研究、特にポテンシャルベース報酬形成(PBRS)は、しばしば複雑で訓練可能な機能であり、PBRSが開発された従来の報酬関数よりも幅広い変数に依存するため、多くのIM手法には適用されていない。
PBRSの拡張として、これまで証明されたよりも一般的な関数セットの下で最適なポリシーの集合を保ったことを証明した。
また、最適ポリシーの集合を変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(英語版)とGRM(英語版)(英語版)を提示する。
The MiniGrid DoorKey and Cliff Walking Environment, we demonstrated that PBIM and GRM successfully prevent the agent to converging to a subtimal policy and can speed up training。
さらに、GRMはポテンシャルに基づく報酬形成関数を包含するのに十分な一般性があることを証明した。
本稿では,従来のPBIM法導入の取り組みを拡張し,GRMのより一般的な手法の拡張と,さらなる証明,実験結果,議論を提供する。
関連論文リスト
- Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - Potential-Based Reward Shaping For Intrinsic Motivation [4.798097103214276]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また、最適ポリシーのセットを変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(Em potential-based Intrinsic Motivation)を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:12:09Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。