論文の概要: Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping
- arxiv url: http://arxiv.org/abs/2011.02669v1
- Date: Thu, 5 Nov 2020 05:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:32:13.986307
- Title: Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping
- Title(参考訳): 報酬形成を利用した学習 : 報酬形成の新しいアプローチ
- Authors: Yujing Hu, Weixun Wang, Hangtian Jia, Yixiang Wang, Yingfeng Chen,
Jianye Hao, Feng Wu, Changjie Fan
- Abstract要約: リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
- 参考スコア(独自算出の注目度): 71.214923471669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward shaping is an effective technique for incorporating domain knowledge
into reinforcement learning (RL). Existing approaches such as potential-based
reward shaping normally make full use of a given shaping reward function.
However, since the transformation of human knowledge into numeric reward values
is often imperfect due to reasons such as human cognitive bias, completely
utilizing the shaping reward function may fail to improve the performance of RL
algorithms. In this paper, we consider the problem of adaptively utilizing a
given shaping reward function. We formulate the utilization of shaping rewards
as a bi-level optimization problem, where the lower level is to optimize policy
using the shaping rewards and the upper level is to optimize a parameterized
shaping weight function for true reward maximization. We formally derive the
gradient of the expected true reward with respect to the shaping weight
function parameters and accordingly propose three learning algorithms based on
different assumptions. Experiments in sparse-reward cartpole and MuJoCo
environments show that our algorithms can fully exploit beneficial shaping
rewards, and meanwhile ignore unbeneficial shaping rewards or even transform
them into beneficial ones.
- Abstract(参考訳): リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である。
ポテンシャルに基づく報酬形成のような既存のアプローチは、通常、所定の報酬関数をフル活用する。
しかしながら、人間の知識の数値的な報酬値への変換は、人間の認知バイアスなどの理由により不完全な場合が多いため、整形報酬関数を完全に活用することは、RLアルゴリズムの性能向上に失敗する可能性がある。
本稿では,所定の形状報酬関数を適応的に活用する問題を考察する。
両レベル最適化問題として, 整形報酬の活用を定式化し, 整形報酬を用いて政策を最適化し, 上層はパラメータ化整形重量関数を最適化し, 真の整形最大化を行う。
本稿では, 形状重み関数パラメータに対する期待真報酬の勾配を公式に導出し, 異なる仮定に基づく3つの学習アルゴリズムを提案する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用し、不便な整形報酬を無視したり、有益な整形報酬に変換したりできることを示している。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Benchmarking Potential Based Rewards for Learning Humanoid Locomotion [10.406358397515838]
十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。
理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。
本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
論文 参考訳(メタデータ) (2023-07-19T17:12:28Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。