論文の概要: ELEMENT: Episodic and Lifelong Exploration via Maximum Entropy
- arxiv url: http://arxiv.org/abs/2412.03800v1
- Date: Thu, 05 Dec 2024 01:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:06.829551
- Title: ELEMENT: Episodic and Lifelong Exploration via Maximum Entropy
- Title(参考訳): ELement:最大エントロピーによるエピソード・寿命探査
- Authors: Hongming Li, Shujian Yu, Bin Liu, Jose C. Principe,
- Abstract要約: EmphEpisodic and Lifelong Exploration via ENTropy (ELement)は、多スケールで本質的に動機付けられた強化学習フレームワークである。
本稿では, 理論上界に対する最適解を提供する, エピソードエントロピーの固有報酬として, エピソード状態エントロピーを提案する。
我々は、エピソードと生涯のセットアップの両方において、最先端の内在的な報酬を著しく上回っている。
- 参考スコア(独自算出の注目度): 21.586240279091815
- License:
- Abstract: This paper proposes \emph{Episodic and Lifelong Exploration via Maximum ENTropy} (ELEMENT), a novel, multiscale, intrinsically motivated reinforcement learning (RL) framework that is able to explore environments without using any extrinsic reward and transfer effectively the learned skills to downstream tasks. We advance the state of the art in three ways. First, we propose a multiscale entropy optimization to take care of the fact that previous maximum state entropy, for lifelong exploration with millions of state observations, suffers from vanishing rewards and becomes very expensive computationally across iterations. Therefore, we add an episodic maximum entropy over each episode to speedup the search further. Second, we propose a novel intrinsic reward for episodic entropy maximization named \emph{average episodic state entropy} which provides the optimal solution for a theoretical upper bound of the episodic state entropy objective. Third, to speed the lifelong entropy maximization, we propose a $k$ nearest neighbors ($k$NN) graph to organize the estimation of the entropy and updating processes that reduces the computation substantially. Our ELEMENT significantly outperforms state-of-the-art intrinsic rewards in both episodic and lifelong setups. Moreover, it can be exploited in task-agnostic pre-training, collecting data for offline reinforcement learning, etc.
- Abstract(参考訳): 本稿では,学習スキルを下流のタスクに効果的に伝達することなく,環境を探索できる新しい,マルチスケールで,本質的に動機づけられた強化学習(RL)フレームワークである,Emph{Episodic and Lifelong Exploration via Maximum ENTropy} (ELement)を提案する。
我々は最先端を3つの方法で進める。
まず, これまでの最大状態エントロピーを, 数百万の状態観測で一生にわたって探索するために, 報酬の消失に悩まされ, 反復的に計算的に非常に高価になるという事実に対処するために, マルチスケールエントロピー最適化を提案する。
したがって,各エピソードに最大エントロピーを加えて検索を高速化する。
第2に, エピソード状態エントロピー目的の理論的上界に対する最適解を提供する「emph{average episodic state entropy}」という, エピソードエントロピー最大化のための新しい固有報酬を提案する。
第三に、寿命の長いエントロピーの最大化を高速化するために、エントロピーの推定を整理し、計算を大幅に削減するプロセスの更新を行うために、$k$近辺($k$NN)グラフを提案する。
我々のELementは、エピソードと寿命の両方において、最先端の本質的な報酬を著しく上回っています。
さらに、タスク非依存の事前トレーニング、オフラインの強化学習のためのデータ収集などにも利用することができる。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - How to Explore with Belief: State Entropy Maximization in POMDPs [40.82741665804367]
我々は、**状態で定義された目的の1次緩和に対処するために、メモリと効率的な*政治*手法を開発する。
本稿では、アプリケーションの課題を満たすより現実的な領域に状態エントロピーを一般化することを目的とする。
論文 参考訳(メタデータ) (2024-06-04T13:16:34Z) - Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。
訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。
軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-14T16:51:14Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。