論文の概要: k-Means Maximum Entropy Exploration
- arxiv url: http://arxiv.org/abs/2205.15623v4
- Date: Tue, 7 Nov 2023 10:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 23:08:37.827921
- Title: k-Means Maximum Entropy Exploration
- Title(参考訳): k平均最大エントロピー探索
- Authors: Alexander Nedergaard, Matthew Cook
- Abstract要約: 余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
- 参考スコア(独自算出の注目度): 55.81894038654918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in high-dimensional, continuous spaces with sparse rewards is an
open problem in reinforcement learning. Artificial curiosity algorithms address
this by creating rewards that lead to exploration. Given a reinforcement
learning algorithm capable of maximizing rewards, the problem reduces to
finding an optimization objective consistent with exploration. Maximum entropy
exploration uses the entropy of the state visitation distribution as such an
objective. However, efficiently estimating the entropy of the state visitation
distribution is challenging in high-dimensional, continuous spaces. We
introduce an artificial curiosity algorithm based on lower bounding an
approximation to the entropy of the state visitation distribution. The bound
relies on a result we prove for non-parametric density estimation in arbitrary
dimensions using k-means. We show that our approach is both computationally
efficient and competitive on benchmarks for exploration in high-dimensional,
continuous spaces, especially on tasks where reinforcement learning algorithms
are unable to find rewards.
- Abstract(参考訳): スパース報酬を伴う高次元連続空間の探索は強化学習においてオープンな問題である。
人工好奇心アルゴリズムは、探索につながる報酬を作成することでこの問題に対処する。
報酬を最大化できる強化学習アルゴリズムを考えると、この問題は探索と整合した最適化目標を見つけることにつながる。
最大エントロピー探索は、そのような目的として状態訪問分布のエントロピーを用いる。
しかし,高次元連続空間において,状態訪問分布のエントロピーを効率的に推定することは困難である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
境界は k-平均を用いた任意の次元における非パラメトリック密度推定の結果に依存する。
提案手法は,高次元連続空間における探索のためのベンチマーク,特に強化学習アルゴリズムが報酬を見つけられないタスクにおいて,計算効率が高く競争力があることを示す。
関連論文リスト
- Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and
Optimal Algorithms [64.10576998630981]
最適なヘッセン依存型サンプルの複雑さを, 初めて厳密に評価した。
ヘシアン非依存のアルゴリズムは、すべてのヘシアンインスタンスに対して最適なサンプル複雑さを普遍的に達成する。
本アルゴリズムにより得られたサンプルの最適複雑さは,重み付き雑音分布においても有効である。
論文 参考訳(メタデータ) (2023-06-21T17:03:22Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z) - Leveraging Reinforcement Learning for evaluating Robustness of KNN
Search Algorithms [0.0]
与えられたクエリポイントのデータセットでk-nearestの隣人を見つける問題は、数年前から解決されてきた。
本稿では,K-Nearest Neighbor Search(K-Nearest Neighbor Search)の手法について,計算の視点から検討する。
本論文では,KNNSアプローチの対敵点に対する堅牢性を評価するために,汎用的な強化学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-10T16:10:58Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。