Fugu-MT 論文翻訳(概要): OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

論文の概要: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

arxiv url: http://arxiv.org/abs/2312.12145v2
Date: Wed, 20 Dec 2023 15:16:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 12:25:54.000405
Title: OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments
Title（参考訳）: OVD-Explorer: ノイズの多い環境での探査には最適ではない
Authors: Jinyi Liu, Zhi Wang, Yan Zheng, Jianye Hao, Chenjia Bai, Junjie Ye, Zhen Wang, Haiyin Piao, Yang Sun
Abstract要約: 環境性(ノイズ)の存在下では、純粋に楽観的な探索は高騒音領域の過剰な探査につながる可能性がある。本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
参考スコア（独自算出の注目度）: 54.81404699942899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In reinforcement learning, the optimism in the face of uncertainty (OFU) is a mainstream principle for directing exploration towards less explored areas, characterized by higher uncertainty. However, in the presence of environmental stochasticity (noise), purely optimistic exploration may lead to excessive probing of high-noise areas, consequently impeding exploration efficiency. Hence, in exploring noisy environments, while optimism-driven exploration serves as a foundation, prudent attention to alleviating unnecessary over-exploration in high-noise areas becomes beneficial. In this work, we propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a noise-aware optimistic exploration for continuous control. OVD-Explorer proposes a new measurement of the policy's exploration ability considering noise in optimistic perspectives, and leverages gradient ascent to drive exploration. Practically, OVD-Explorer can be easily integrated with continuous control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic exploration.
Abstract（参考訳）: 強化学習において、不確実性(OFU)に直面した楽観主義は、調査の少ない領域への探索を指示する主要な原則であり、不確実性が高いことが特徴である。しかし、環境確率性(noise)の存在下では、純粋に楽観的な探検は高音域の過剰な探索につながり、探検効率を損なう可能性がある。したがって、ノイズの多い環境を探索する際には、楽観主義による探索が基礎となる一方で、高騒音領域における不要な過剰探索を緩和するための慎重な注意が益となる。本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。 OVD-Explorerは楽観的な視点でノイズを考慮した政策の探索能力を新たに測定し、勾配上昇を利用して探索を行う。実際、OVD-Explorerは連続制御RLアルゴリズムと容易に統合できる。 MuJoCoおよびGridChaosタスクの広範囲な評価は、ノイズを考慮した楽観的な探索を実現する上で、OVD-Explorerの優位性を示している。

関連論文リスト

On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文参考訳（メタデータ） (2025-07-03T14:03:47Z)
Depth-Constrained ASV Navigation with Deep RL and Limited Sensing [45.77464360746532]
本研究では,深度制約下でのASVナビゲーションのための強化学習フレームワークを提案する。環境意識を高めるため,GPレグレッションをRLフレームワークに統合する。我々は,実世界の水環境に対して,訓練された政策が適切に一般化されることを保証する効果的なシミュレート・トゥ・リアル・トランスファーを実証する。
論文参考訳（メタデータ） (2025-04-25T10:56:56Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
On-policy Actor-Critic Reinforcement Learning for Multi-UAV Exploration [0.7373617024876724]
無人航空機(UAV)は、精密農業、捜索救助、リモートセンシングなど、様々な分野で人気が高まっている。本研究は,複数のUAVを用いて2次元の関心領域を探索するために,政治強化学習(RL)とPPO(Pximal Policy Optimization)を活用することで,この問題に対処することを目的とする。提案手法は、深層畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)を用いて、UAVと既にカバーされている領域を特定することを含む。
論文参考訳（メタデータ） (2024-09-17T10:36:46Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Noisy Spiking Actor Network for Exploration [56.13654667729119]
スパイキングニューラルネットワーク(SNN)はノイズに対して強い堅牢性を持ち、局所的な障害による効率的な探索を実現することは困難である。本稿では,充電・送信中の時間関連ノイズを発生させるノイズの多いスパイクアクタネットワーク(ノイズSAN)を提案する。本手法は,OpenAI体育館の多種多様な連続制御タスクにおいて,最先端の性能を向上する。
論文参考訳（メタデータ） (2024-03-07T02:47:08Z)
Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文参考訳（メタデータ） (2024-01-08T19:25:40Z)
On the Importance of Exploration for Generalization in Reinforcement Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文参考訳（メタデータ） (2023-06-08T18:07:02Z)
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。 REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。 PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文参考訳（メタデータ） (2022-09-19T08:42:46Z)
Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文参考訳（メタデータ） (2022-08-19T13:09:32Z)
Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文参考訳（メタデータ） (2021-01-06T14:15:07Z)
Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2019-10-21T04:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。