論文の概要: Bootstrapped Reward Shaping
- arxiv url: http://arxiv.org/abs/2501.00989v1
- Date: Thu, 02 Jan 2025 00:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:10.259424
- Title: Bootstrapped Reward Shaping
- Title(参考訳): Bootstrapped Reward Shaping
- Authors: Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni,
- Abstract要約: より高密度な報酬信号を提供する方法として,PBRS (Potential-based reward shaping) が提案されている。
PBRSのポテンシャル関数として,状態値関数に対するエージェントの現在の推定値が作用するBSRSと呼ばれる「ブートストラップ法」を提案する。
- 参考スコア(独自算出の注目度): 4.8748194765816955
- License:
- Abstract: In reinforcement learning, especially in sparse-reward domains, many environment steps are required to observe reward information. In order to increase the frequency of such observations, "potential-based reward shaping" (PBRS) has been proposed as a method of providing a more dense reward signal while leaving the optimal policy invariant. However, the required "potential function" must be carefully designed with task-dependent knowledge to not deter training performance. In this work, we propose a "bootstrapped" method of reward shaping, termed BSRS, in which the agent's current estimate of the state-value function acts as the potential function for PBRS. We provide convergence proofs for the tabular setting, give insights into training dynamics for deep RL, and show that the proposed method improves training speed in the Atari suite.
- Abstract(参考訳): 強化学習、特にスパース・リワード領域では、報奨情報を観察するために多くの環境ステップが必要である。
このような観測の頻度を高めるために、最適方針を不変にしながらより高密度な報酬信号を提供する方法として、PBRS (potential-based reward shaping) が提案されている。
しかし、必要な「ポテンシャル関数」は、訓練性能を損なわないよう、タスク依存の知識で慎重に設計されなければならない。
本研究では,PBRSのポテンシャル関数として,状態値関数に対するエージェントの現在の推定値が作用する,BSRSと呼ばれる報酬形成の「ブートストラップ」手法を提案する。
本稿では,表面設定のための収束証明を提供し,深部RLのトレーニング力学に関する洞察を与え,提案手法がAtariスイートのトレーニング速度を改善することを示す。
関連論文リスト
- Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。
正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文 参考訳(メタデータ) (2025-02-03T12:32:50Z) - Potential-Based Reward Shaping For Intrinsic Motivation [4.798097103214276]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また、最適ポリシーのセットを変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(Em potential-based Intrinsic Motivation)を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:12:09Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Learning Transferable Reward for Query Object Localization with Policy
Adaptation [49.994989590997655]
我々は、順序距離学習によって表される模範集合を用いて、伝達可能な報酬信号を学習する。
提案手法は,報酬信号が手軽に利用できない新しい環境へのテスト時ポリシー適用を可能にする。
論文 参考訳(メタデータ) (2022-02-24T22:52:14Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Plan-Based Relaxed Reward Shaping for Goal-Directed Tasks [18.77742893158536]
FV-RSはPB-RSの厳密な最適性保証を長期的行動の保証に緩和する。
FV-RSは制限が小さいため、RLアルゴリズムのサンプル効率を改善するのにさらに適した報酬整形関数が可能である。
論文 参考訳(メタデータ) (2021-07-14T12:55:41Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。