論文の概要: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in
Noisy Environments
- arxiv url: http://arxiv.org/abs/2312.12145v2
- Date: Wed, 20 Dec 2023 15:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:25:54.000405
- Title: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in
Noisy Environments
- Title(参考訳): OVD-Explorer: ノイズの多い環境での探査には最適ではない
- Authors: Jinyi Liu, Zhi Wang, Yan Zheng, Jianye Hao, Chenjia Bai, Junjie Ye,
Zhen Wang, Haiyin Piao, Yang Sun
- Abstract要約: 環境性(ノイズ)の存在下では、純粋に楽観的な探索は高騒音領域の過剰な探査につながる可能性がある。
本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
- 参考スコア(独自算出の注目度): 54.81404699942899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the optimism in the face of uncertainty (OFU) is a
mainstream principle for directing exploration towards less explored areas,
characterized by higher uncertainty. However, in the presence of environmental
stochasticity (noise), purely optimistic exploration may lead to excessive
probing of high-noise areas, consequently impeding exploration efficiency.
Hence, in exploring noisy environments, while optimism-driven exploration
serves as a foundation, prudent attention to alleviating unnecessary
over-exploration in high-noise areas becomes beneficial. In this work, we
propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a
noise-aware optimistic exploration for continuous control. OVD-Explorer
proposes a new measurement of the policy's exploration ability considering
noise in optimistic perspectives, and leverages gradient ascent to drive
exploration. Practically, OVD-Explorer can be easily integrated with continuous
control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks
demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic
exploration.
- Abstract(参考訳): 強化学習において、不確実性(OFU)に直面した楽観主義は、調査の少ない領域への探索を指示する主要な原則であり、不確実性が高いことが特徴である。
しかし、環境確率性(noise)の存在下では、純粋に楽観的な探検は高音域の過剰な探索につながり、探検効率を損なう可能性がある。
したがって、ノイズの多い環境を探索する際には、楽観主義による探索が基礎となる一方で、高騒音領域における不要な過剰探索を緩和するための慎重な注意が益となる。
本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
OVD-Explorerは楽観的な視点でノイズを考慮した政策の探索能力を新たに測定し、勾配上昇を利用して探索を行う。
実際、OVD-Explorerは連続制御RLアルゴリズムと容易に統合できる。
MuJoCoおよびGridChaosタスクの広範囲な評価は、ノイズを考慮した楽観的な探索を実現する上で、OVD-Explorerの優位性を示している。
関連論文リスト
- On-policy Actor-Critic Reinforcement Learning for Multi-UAV Exploration [0.7373617024876724]
無人航空機(UAV)は、精密農業、捜索救助、リモートセンシングなど、様々な分野で人気が高まっている。
本研究は,複数のUAVを用いて2次元の関心領域を探索するために,政治強化学習(RL)とPPO(Pximal Policy Optimization)を活用することで,この問題に対処することを目的とする。
提案手法は、深層畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)を用いて、UAVと既にカバーされている領域を特定することを含む。
論文 参考訳(メタデータ) (2024-09-17T10:36:46Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Noisy Spiking Actor Network for Exploration [56.13654667729119]
スパイキングニューラルネットワーク(SNN)はノイズに対して強い堅牢性を持ち、局所的な障害による効率的な探索を実現することは困難である。
本稿では,充電・送信中の時間関連ノイズを発生させるノイズの多いスパイクアクタネットワーク(ノイズSAN)を提案する。
本手法は,OpenAI体育館の多種多様な連続制御タスクにおいて,最先端の性能を向上する。
論文 参考訳(メタデータ) (2024-03-07T02:47:08Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2019-10-21T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。