論文の概要: Neighboring state-based RL Exploration
- arxiv url: http://arxiv.org/abs/2212.10712v1
- Date: Wed, 21 Dec 2022 01:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:02:30.900942
- Title: Neighboring state-based RL Exploration
- Title(参考訳): 隣接状態に基づくRL探査
- Authors: Jeffery Cheng, Kevin Li, Justin Lin, Pedro Pachuca
- Abstract要約: 本研究では, 早期エージェントとして, 近隣の州の境界領域から派生した行動が, 探索時により良い行動をもたらす可能性があるという直感から, 近隣の州を基盤としたモデルフリーな探索について検討する。
本稿では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である$rho$-exploreが,離散環境におけるDouble DQNベースラインを,Eval Reward Returnで49%向上させることを確認した。
- 参考スコア(独自算出の注目度): 1.5935205681539144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning is a powerful tool to model decision-making processes.
However, it relies on an exploration-exploitation trade-off that remains an
open challenge for many tasks. In this work, we study neighboring state-based,
model-free exploration led by the intuition that, for an early-stage agent,
considering actions derived from a bounded region of nearby states may lead to
better actions when exploring. We propose two algorithms that choose
exploratory actions based on a survey of nearby states, and find that one of
our methods, ${\rho}$-explore, consistently outperforms the Double DQN baseline
in an discrete environment by 49\% in terms of Eval Reward Return.
- Abstract(参考訳): 強化学習は意思決定プロセスをモデル化する強力なツールである。
しかし、これは多くのタスクにおいてオープンな課題である探索・探索のトレードオフに依存している。
本研究では, 初期エージェントとして, 近隣の州の境界領域から派生した行動を考えると, 探索時の行動が改善する可能性があるという直感から, 近隣の州を基盤としたモデルフリー探索について検討する。
本研究では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である${\rho}$-exploreが,離散環境でのDouble DQNベースラインを,Eval Reward Returnで49 %上回っていることを示す。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning [20.0888026410406]
我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-05T18:56:48Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Generative Adversarial Exploration for Reinforcement Learning [48.379457575356454]
本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
論文 参考訳(メタデータ) (2022-01-27T17:34:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。