論文の概要: Maximum State Entropy Exploration using Predecessor and Successor
Representations
- arxiv url: http://arxiv.org/abs/2306.14808v1
- Date: Mon, 26 Jun 2023 16:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:48:59.911592
- Title: Maximum State Entropy Exploration using Predecessor and Successor
Representations
- Title(参考訳): 前者表現と後続表現を用いた最大状態エントロピー探索
- Authors: Arnav Kumar Jain, Lucas Lehnert, Irina Rish, Glen Berseth
- Abstract要約: 動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
- 参考スコア(独自算出の注目度): 17.732962106114478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animals have a developed ability to explore that aids them in important tasks
such as locating food, exploring for shelter, and finding misplaced items.
These exploration skills necessarily track where they have been so that they
can plan for finding items with relative efficiency. Contemporary exploration
algorithms often learn a less efficient exploration strategy because they
either condition only on the current state or simply rely on making random
open-loop exploratory moves. In this work, we propose $\eta\psi$-Learning, a
method to learn efficient exploratory policies by conditioning on past episodic
experience to make the next exploratory move. Specifically, $\eta\psi$-Learning
learns an exploration policy that maximizes the entropy of the state visitation
distribution of a single trajectory. Furthermore, we demonstrate how variants
of the predecessor representation and successor representations can be combined
to predict the state visitation entropy. Our experiments demonstrate the
efficacy of $\eta\psi$-Learning to strategically explore the environment and
maximize the state coverage with limited samples.
- Abstract(参考訳): 動物の探索能力は発達しており、食料の配置、避難所の探索、場所のずれなどの重要な作業に役立っている。
これらの探索スキルは必ずしも彼らがどこにいたか追跡するので、相対的に効率の良いアイテムを見つける計画を立てられる。
現代の探索アルゴリズムは、現在の状態のみを条件とするか、単にランダムな開ループ探索操作に依存するため、効率の悪い探索戦略を学ぶことが多い。
そこで本研究では,過去の叙述的経験を条件づけて効率的な探索政策を学習し,次の探索行動を行う手法である$\eta\psi$-Learningを提案する。
具体的には、$\eta\psi$-Learningは、単一の軌跡の状態訪問分布のエントロピーを最大化する探索ポリシーを学ぶ。
さらに、前者表現と後継表現の変形を組み合わせることで、状態の訪問エントロピーを予測する方法を示す。
実験では,環境を戦略的に探索し,限られたサンプルで状態カバレッジを最大化するために,$\eta\psi$-learningの有効性を実証した。
関連論文リスト
- Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning [20.0888026410406]
我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-05T18:56:48Z) - Neighboring state-based RL Exploration [1.5935205681539144]
本研究では, 早期エージェントとして, 近隣の州の境界領域から派生した行動が, 探索時により良い行動をもたらす可能性があるという直感から, 近隣の州を基盤としたモデルフリーな探索について検討する。
本稿では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である$rho$-exploreが,離散環境におけるDouble DQNベースラインを,Eval Reward Returnで49%向上させることを確認した。
論文 参考訳(メタデータ) (2022-12-21T01:23:53Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Curious Explorer: a provable exploration strategy in Policy Learning [0.0]
我々は,新規かつ簡便な状態空間探索戦略であるCurious Explorerを開発した。
Curious Explorerは$rho$から始まり、不訪問状態のセットに割り当てられた固有の報酬を使用することで、一連のポリシーを生成する。
我々は、Curious Explorerが、挑戦的な探索を行い、MDPの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-06-29T15:31:51Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。