論文の概要: Careful at Estimation and Bold at Exploration
- arxiv url: http://arxiv.org/abs/2308.11348v1
- Date: Tue, 22 Aug 2023 10:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:26:20.188931
- Title: Careful at Estimation and Bold at Exploration
- Title(参考訳): 探査における評価と曲げの注意
- Authors: Xing Chen, Yijun Liu, Zhaogeng Liu, Hechang Chen, Hengshuai Yao, Yi
Chang
- Abstract要約: 政策に基づく探索は、決定論的政策強化学習における継続的な行動空間にとって有益である。
しかし、政策に基づく探索には、目的のない探索と政策の分岐という2つの大きな問題がある。
政策勾配とは別に,これらの問題を緩和するための新たな探索戦略を導入する。
- 参考スコア(独自算出の注目度): 21.518406902400432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration strategies in continuous action space are often heuristic due to
the infinite actions, and these kinds of methods cannot derive a general
conclusion. In prior work, it has been shown that policy-based exploration is
beneficial for continuous action space in deterministic policy reinforcement
learning(DPRL). However, policy-based exploration in DPRL has two prominent
issues: aimless exploration and policy divergence, and the policy gradient for
exploration is only sometimes helpful due to inaccurate estimation. Based on
the double-Q function framework, we introduce a novel exploration strategy to
mitigate these issues, separate from the policy gradient. We first propose the
greedy Q softmax update schema for Q value update. The expected Q value is
derived by weighted summing the conservative Q value over actions, and the
weight is the corresponding greedy Q value. Greedy Q takes the maximum value of
the two Q functions, and conservative Q takes the minimum value of the two
different Q functions. For practicality, this theoretical basis is then
extended to allow us to combine action exploration with the Q value update,
except for the premise that we have a surrogate policy that behaves like this
exploration policy. In practice, we construct such an exploration policy with a
few sampled actions, and to meet the premise, we learn such a surrogate policy
by minimizing the KL divergence between the target policy and the exploration
policy constructed by the conservative Q. We evaluate our method on the Mujoco
benchmark and demonstrate superior performance compared to previous
state-of-the-art methods across various environments, particularly in the most
complex Humanoid environment.
- Abstract(参考訳): 連続的な行動空間における探索戦略は無限の作用のためにしばしばヒューリスティックであり、この種の方法は一般的な結論を引き出すことができない。
従来,政策に基づく探索は決定論的政策強化学習(DPRL)において連続的な行動空間に有用であることが示されている。
しかし、DPRLにおける政策に基づく探索には、目的のない探索と政策のばらつきという2つの大きな問題がある。
二重Q関数の枠組みに基づき、政策勾配とは別に、これらの問題を緩和するための新たな探索戦略を導入する。
まず、Q値更新のためのgreedy Q softmax update schemaを提案する。
期待Q値は、動作よりも保守Q値を合計した重み付けにより導出され、重みは対応する欲求Q値である。
グレディ Q は二つの Q 関数の最大値をとり、保守 Q は二つの異なる Q 関数の最小値を取る。
実用上、この理論的基盤は、この探索方針のように振る舞う代理政策があるという前提を除いて、行動探索とQ値の更新を組み合わせられるように拡張される。
実際には,いくつかのサンプル化された行動を伴う探索政策を構築し,その前提を満たすために,目標政策と保守的qで構築された探索政策とのklの相違を最小限に抑えることにより,このような代理政策を学習する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文 参考訳(メタデータ) (2022-06-20T08:23:49Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate [40.97686031763918]
報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
論文 参考訳(メタデータ) (2020-07-09T08:44:39Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。