論文の概要: Action-Dependent Optimality-Preserving Reward Shaping
- arxiv url: http://arxiv.org/abs/2505.12611v1
- Date: Mon, 19 May 2025 01:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.342821
- Title: Action-Dependent Optimality-Preserving Reward Shaping
- Title(参考訳): 行動依存最適性保存リワード整形
- Authors: Grant C. Forbes, Jianxun Wang, Leonardo Villalobos-Arias, Arnav Jhala, David L. Roberts,
- Abstract要約: ADOPS(Action-Dependent Optimality Preserving Shaping)を導入する。
ADOPSは、本質的な累積リターンを、最適なポリシーを保ちながら、エージェントのアクションに依存することができる。
本研究では, 複雑で疎外な環境下で学習しながら, ADOPSが最適性を維持する上で, アクション依存がいかに有効かを示す。
- 参考スコア(独自算出の注目度): 2.2169849640518153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent RL research has utilized reward shaping--particularly complex shaping rewards such as intrinsic motivation (IM)--to encourage agent exploration in sparse-reward environments. While often effective, ``reward hacking'' can lead to the shaping reward being optimized at the expense of the extrinsic reward, resulting in a suboptimal policy. Potential-Based Reward Shaping (PBRS) techniques such as Generalized Reward Matching (GRM) and Policy-Invariant Explicit Shaping (PIES) have mitigated this. These methods allow for implementing IM without altering optimal policies. In this work we show that they are effectively unsuitable for complex, exploration-heavy environments with long-duration episodes. To remedy this, we introduce Action-Dependent Optimality Preserving Shaping (ADOPS), a method of converting intrinsic rewards to an optimality-preserving form that allows agents to utilize IM more effectively in the extremely sparse environment of Montezuma's Revenge. We also prove ADOPS accommodates reward shaping functions that cannot be written in a potential-based form: while PBRS-based methods require the cumulative discounted intrinsic return be independent of actions, ADOPS allows for intrinsic cumulative returns to be dependent on agents' actions while still preserving the optimal policy set. We show how action-dependence enables ADOPS's to preserve optimality while learning in complex, sparse-reward environments where other methods struggle.
- Abstract(参考訳): 近年のRL研究は、報酬形成、特に内在的動機づけ(IM)のような複雑な形成報酬を活用し、スパース・リワード環境におけるエージェント探索を奨励している。
しばしば効果があるが、'reward hacking' は、外因的な報酬を犠牲にして整形報酬を最適化し、亜最適政策をもたらす。
Generalized Reward Matching (GRM) や Policy-Invariant Explicit Shaping (PIES) のような可能性ベースリワード整形 (PBRS) 技術がこれを緩和している。
これらの方法は、最適ポリシーを変更することなくIMを実装することができる。
本研究は,長期にわたるエピソードを伴う複雑で探索性の高い環境に効果的に適応できないことを示す。
そこで本研究では,モンテズマ・リベンジの極めて希少な環境において,エージェントがIMをより効果的に活用することのできる,本質的な報酬を最適保存形式に変換する手法であるADOPSを導入する。
PBRSに基づく手法では、累積割引された内因的リターンはアクションに依存しないが、ADOPSでは、内因的累積リターンはエージェントのアクションに依存しつつ、最適なポリシーを保ちながら、エージェントのアクションに依存することができる。
我々は,ADOPSが,他の手法が苦戦する複雑で疎遠な環境下で学習しながら,最適性を維持する上で,アクション依存がいかに有効かを示す。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。
ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。
ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Potential-Based Intrinsic Motivation: Preserving Optimality With Complex, Non-Markovian Shaping Rewards [2.2169849640518153]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また,EM報酬をポテンシャルベース形式に変換するためのPBIM法とGRM法について述べる。
論文 参考訳(メタデータ) (2024-10-16T03:39:26Z) - Potential-Based Reward Shaping For Intrinsic Motivation [4.798097103214276]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また、最適ポリシーのセットを変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(Em potential-based Intrinsic Motivation)を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:12:09Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning Action Embeddings for Off-Policy Evaluation [6.385697591955264]
オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。
しかし、アクションの数が多ければ、あるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。
Saito と Joachims は、代わりにアクション埋め込み(英語版)を用いて、大きなアクション空間における IPS のばらつきを減らし、マーシャライズされた IPS (MIPS) を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:44:30Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。