論文の概要: Fast active learning for pure exploration in reinforcement learning
- arxiv url: http://arxiv.org/abs/2007.13442v2
- Date: Sat, 10 Oct 2020 17:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:44:16.331820
- Title: Fast active learning for pure exploration in reinforcement learning
- Title(参考訳): 強化学習における純粋探索のための高速能動学習
- Authors: Pierre M\'enard, Omar Darwiche Domingues, Anders Jonsson, Emilie
Kaufmann, Edouard Leurent, Michal Valko
- Abstract要約: 1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
- 参考スコア(独自算出の注目度): 48.98199700043158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic environments often provide agents with very limited feedback. When
the environment is initially unknown, the feedback, in the beginning, can be
completely absent, and the agents may first choose to devote all their effort
on exploring efficiently. The exploration remains a challenge while it has been
addressed with many hand-tuned heuristics with different levels of generality
on one side, and a few theoretically-backed exploration strategies on the
other. Many of them are incarnated by intrinsic motivation and in particular
explorations bonuses. A common rule of thumb for exploration bonuses is to use
$1/\sqrt{n}$ bonus that is added to the empirical estimates of the reward,
where $n$ is a number of times this particular state (or a state-action pair)
was visited. We show that, surprisingly, for a pure-exploration objective of
reward-free exploration, bonuses that scale with $1/n$ bring faster learning
rates, improving the known upper bounds with respect to the dependence on the
horizon $H$. Furthermore, we show that with an improved analysis of the
stopping time, we can improve by a factor $H$ the sample complexity in the
best-policy identification setting, which is another pure-exploration
objective, where the environment provides rewards but the agent is not
penalized for its behavior during the exploration phase.
- Abstract(参考訳): 現実的な環境はしばしばエージェントに非常に限られたフィードバックを提供する。
環境が当初不明な場合、最初はフィードバックが完全に欠落し、エージェントはまず、効率的な探索に全力を注ぐことを選択できる。
調査は依然として課題であり、一方では様々なレベルの一般性を持つ手動のヒューリスティックと、他方では理論的に支援されたいくつかの探査戦略に対処されている。
それらの多くは本質的なモチベーションと特に探検のボーナスに魅了されている。
探索ボーナスの親指の一般的なルールは、1/\sqrt{n}$ボーナスを使用することで、報酬の試算値に追加される。
当然のことながら、報酬のない探索という純粋探索目的のために、1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善する。
さらに, 停止時間分析の改善により, 探索期間中の行動に対して, エージェントがペナルティを課されない環境を探索する目的として, 最高の政治識別設定において, サンプルの複雑さを$H$で改善できることが示唆された。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。