論文の概要: Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate
- arxiv url: http://arxiv.org/abs/2007.04640v2
- Date: Fri, 26 Feb 2021 20:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:21:47.531394
- Title: Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate
- Title(参考訳): 非パラメトリック状態エントロピー推定の政策勾配によるタスク非依存探索
- Authors: Mirco Mutti, Lorenzo Pratissoli, Marcello Restelli
- Abstract要約: 報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
- 参考スコア(独自算出の注目度): 40.97686031763918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a reward-free environment, what is a suitable intrinsic objective for an
agent to pursue so that it can learn an optimal task-agnostic exploration
policy? In this paper, we argue that the entropy of the state distribution
induced by finite-horizon trajectories is a sensible target. Especially, we
present a novel and practical policy-search algorithm, Maximum Entropy POLicy
optimization (MEPOL), to learn a policy that maximizes a non-parametric,
$k$-nearest neighbors estimate of the state distribution entropy. In contrast
to known methods, MEPOL is completely model-free as it requires neither to
estimate the state distribution of any policy nor to model transition dynamics.
Then, we empirically show that MEPOL allows learning a maximum-entropy
exploration policy in high-dimensional, continuous-control domains, and how
this policy facilitates learning a variety of meaningful reward-based tasks
downstream.
- Abstract(参考訳): 報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学ぶために追求する本質的な目的は何だろうか。
本稿では,有限水平軌道によって引き起こされる状態分布のエントロピーが妥当な対象であると主張する。
特に,非パラメトリックな$k$-nearestの隣人の状態分布エントロピー推定を最大化するポリシを学ぶために,新しい実用的なポリシー探索アルゴリズムであるmaximum entropy policy optimization (mepol)を提案する。
既知の手法とは対照的に、MEPOLは完全にモデルフリーであり、いかなるポリシーの状態分布もモデル遷移ダイナミクスも必要としない。
次に,mepolが高次元連続制御領域で最大エントロピー探索ポリシーを学習できることと,このポリシーが下流の様々な有意義な報酬ベースのタスクの学習をいかに促進しているかを実証的に示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality [0.5261718469769449]
The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
論文 参考訳(メタデータ) (2023-03-22T17:56:18Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。