論文の概要: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in
Noisy Environments
- arxiv url: http://arxiv.org/abs/2312.12145v2
- Date: Wed, 20 Dec 2023 15:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:25:54.000405
- Title: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in
Noisy Environments
- Title(参考訳): OVD-Explorer: ノイズの多い環境での探査には最適ではない
- Authors: Jinyi Liu, Zhi Wang, Yan Zheng, Jianye Hao, Chenjia Bai, Junjie Ye,
Zhen Wang, Haiyin Piao, Yang Sun
- Abstract要約: 環境性(ノイズ)の存在下では、純粋に楽観的な探索は高騒音領域の過剰な探査につながる可能性がある。
本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
- 参考スコア(独自算出の注目度): 54.81404699942899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the optimism in the face of uncertainty (OFU) is a
mainstream principle for directing exploration towards less explored areas,
characterized by higher uncertainty. However, in the presence of environmental
stochasticity (noise), purely optimistic exploration may lead to excessive
probing of high-noise areas, consequently impeding exploration efficiency.
Hence, in exploring noisy environments, while optimism-driven exploration
serves as a foundation, prudent attention to alleviating unnecessary
over-exploration in high-noise areas becomes beneficial. In this work, we
propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a
noise-aware optimistic exploration for continuous control. OVD-Explorer
proposes a new measurement of the policy's exploration ability considering
noise in optimistic perspectives, and leverages gradient ascent to drive
exploration. Practically, OVD-Explorer can be easily integrated with continuous
control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks
demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic
exploration.
- Abstract(参考訳): 強化学習において、不確実性(OFU)に直面した楽観主義は、調査の少ない領域への探索を指示する主要な原則であり、不確実性が高いことが特徴である。
しかし、環境確率性(noise)の存在下では、純粋に楽観的な探検は高音域の過剰な探索につながり、探検効率を損なう可能性がある。
したがって、ノイズの多い環境を探索する際には、楽観主義による探索が基礎となる一方で、高騒音領域における不要な過剰探索を緩和するための慎重な注意が益となる。
本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
OVD-Explorerは楽観的な視点でノイズを考慮した政策の探索能力を新たに測定し、勾配上昇を利用して探索を行う。
実際、OVD-Explorerは連続制御RLアルゴリズムと容易に統合できる。
MuJoCoおよびGridChaosタスクの広範囲な評価は、ノイズを考慮した楽観的な探索を実現する上で、OVD-Explorerの優位性を示している。
関連論文リスト
- Noisy Spiking Actor Network for Exploration [56.13654667729119]
スパイキングニューラルネットワーク(SNN)はノイズに対して強い堅牢性を持ち、局所的な障害による効率的な探索を実現することは困難である。
本稿では,充電・送信中の時間関連ノイズを発生させるノイズの多いスパイクアクタネットワーク(ノイズSAN)を提案する。
本手法は,OpenAI体育館の多種多様な連続制御タスクにおいて,最先端の性能を向上する。
論文 参考訳(メタデータ) (2024-03-07T02:47:08Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2019-10-21T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。