論文の概要: Exploration by Random Reward Perturbation
- arxiv url: http://arxiv.org/abs/2506.08737v1
- Date: Tue, 10 Jun 2025 12:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.454834
- Title: Exploration by Random Reward Perturbation
- Title(参考訳): ランダムリワード摂動による探索
- Authors: Haozhe Ma, Guoji Fu, Zhengding Luo, Jiele Wu, Tze-Yun Leong,
- Abstract要約: 強化学習のための新しい探索戦略であるRandom Reward Perturbation(RRP)を紹介する。
環境報酬にゼロ平均ノイズを加えることで、トレーニング中の政策の多様性が効果的に向上することを示す。
RRPは、$epsilon$-greedy、ポリシー、エントロピー正規化といったアクション摂動に基づく探索戦略と完全に互換性がある。
- 参考スコア(独自算出の注目度): 6.293868056239738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Random Reward Perturbation (RRP), a novel exploration strategy for reinforcement learning (RL). Our theoretical analyses demonstrate that adding zero-mean noise to environmental rewards effectively enhances policy diversity during training, thereby expanding the range of exploration. RRP is fully compatible with the action-perturbation-based exploration strategies, such as $\epsilon$-greedy, stochastic policies, and entropy regularization, providing additive improvements to exploration effects. It is general, lightweight, and can be integrated into existing RL algorithms with minimal implementation effort and negligible computational overhead. RRP establishes a theoretical connection between reward shaping and noise-driven exploration, highlighting their complementary potential. Experiments show that RRP significantly boosts the performance of Proximal Policy Optimization and Soft Actor-Critic, achieving higher sample efficiency and escaping local optima across various tasks, under both sparse and dense reward scenarios.
- Abstract(参考訳): 本稿では,Random Reward Perturbation (RRP)を紹介した。
理論分析により,環境報酬にゼロ平均ノイズを加えることにより,訓練中の政策の多様性が効果的に向上し,探索範囲が拡大することが示された。
RRPは、$\epsilon$-greedy、確率的ポリシー、エントロピー正規化といったアクション摂動に基づく探索戦略と完全に互換性があり、探索効果に付加的な改善をもたらす。
汎用的で軽量であり、実装の最小限の労力と無視可能な計算オーバーヘッドで既存のRLアルゴリズムに統合することができる。
RRPは報酬形成とノイズ駆動探索の理論的関係を確立し、その補完的な可能性を強調している。
実験により、RRPは、疎度と密度の両方の報酬シナリオの下で、サンプル効率を高め、様々なタスクにまたがる局所最適化を回避し、POPとSoft Actor-Criticの性能を大幅に向上させることが示された。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Deep RL with Hierarchical Action Exploration for Dialogue Generation [0.0]
本稿では,対話ポリシーの性能がサンプリングサイズと正の相関関係にあることを示す理論的解析と実験について述べる。
サンプリングプロセスにおいて最も有望な応答カテゴリを探索する新しい二重粒度Q関数を導入する。
提案アルゴリズムは, 説明可能性と制御性の両方を示し, 期待値の高い応答を生成する。
論文 参考訳(メタデータ) (2023-03-22T09:29:22Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Continuously Discovering Novel Strategies via Reward-Switching Policy
Optimization [9.456388509414046]
Reward-Switching Policy Optimization (RSPO)
RSPOは、局所的に最適であり、既存のものと十分に異なる新しいポリシーを反復的に見つけることによって、複雑なRL環境における多様な戦略を発見するパラダイムである。
実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。
論文 参考訳(メタデータ) (2022-04-04T12:38:58Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。