論文の概要: Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.01307v1
- Date: Mon, 03 Feb 2025 12:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:56.501267
- Title: Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning
- Title(参考訳): 強化学習における電位ベース逆整形の有効性の改善
- Authors: Henrik Müller, Daniel Kudenko,
- Abstract要約: 報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。
正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License:
- Abstract: Potential-based reward shaping is commonly used to incorporate prior knowledge of how to solve the task into reinforcement learning because it can formally guarantee policy invariance. As such, the optimal policy and the ordering of policies by their returns are not altered by potential-based reward shaping. In this work, we highlight the dependence of effective potential-based reward shaping on the initial Q-values and external rewards, which determine the agent's ability to exploit the shaping rewards to guide its exploration and achieve increased sample efficiency. We formally derive how a simple linear shift of the potential function can be used to improve the effectiveness of reward shaping without changing the encoded preferences in the potential function, and without having to adjust the initial Q-values, which can be challenging and undesirable in deep reinforcement learning. We show the theoretical limitations of continuous potential functions for correctly assigning positive and negative reward shaping values. We verify our theoretical findings empirically on Gridworld domains with sparse and uninformative reward functions, as well as on the Cart Pole and Mountain Car environments, where we demonstrate the application of our results in deep reinforcement learning.
- Abstract(参考訳): 可能性に基づく報酬形成は、政策の不分散を正式に保証できるため、タスクの解決方法に関する事前知識を強化学習に組み込むのが一般的である。
そのため、利益による最適政策や政策の順序は、ポテンシャルに基づく報酬形成によって変更されない。
本研究では,初期Q値と外部報酬に有効なポテンシャルに基づく報酬形成が依存していることを強調する。
本研究では,ポテンシャル関数の単純な線形シフトを用いて,ポテンシャル関数の符号化された選好を変化させることなく,また,深層強化学習において困難かつ望ましくない初期Q値を調整することなく,報酬形成の有効性を向上させる方法の導出を行う。
正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
本研究は,Gridworldドメインとカートポール環境,マウンテンカー環境を実証的に検証し,この結果の深層強化学習への応用を実証した。
関連論文リスト
- Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models [6.472081755630166]
報酬の線形集約がいかにいくつかの脆弱性を示すかを示す。
本稿では,効用関数の経済理論にインスパイアされた報酬関数の変換を提案する。
Inada-transformationsでトレーニングしたモデルは、有害度を低くしながら、より有用であることを示す。
論文 参考訳(メタデータ) (2025-01-08T19:03:17Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。