論文の概要: Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.04466v1
- Date: Mon, 8 Aug 2022 23:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:29:07.046335
- Title: Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning
- Title(参考訳): 連続時間線形2次強化学習のためのエントロピー正規化器の最適スケジューリング
- Authors: Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang
- Abstract要約: ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
遺書は$mathcalO(sqrtN)$(対数係数まで)$N$のエピソードの順であり、文献から最もよく知られた結果と一致することを証明している。
- 参考スコア(独自算出の注目度): 2.508001481512062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work uses the entropy-regularised relaxed stochastic control perspective
as a principled framework for designing reinforcement learning (RL) algorithms.
Herein agent interacts with the environment by generating noisy controls
distributed according to the optimal relaxed policy. The noisy policies on the
one hand, explore the space and hence facilitate learning but, on the other
hand, introduce bias by assigning a positive probability to non-optimal
actions. This exploration-exploitation trade-off is determined by the strength
of entropy regularisation. We study algorithms resulting from two entropy
regularisation formulations: the exploratory control approach, where entropy is
added to the cost objective, and the proximal policy update approach, where
entropy penalises the divergence of policies between two consecutive episodes.
We analyse the finite horizon continuous-time linear-quadratic (LQ) RL problem
for which both algorithms yield a Gaussian relaxed policy. We quantify the
precise difference between the value functions of a Gaussian policy and its
noisy evaluation and show that the execution noise must be independent across
time. By tuning the frequency of sampling from relaxed policies and the
parameter governing the strength of entropy regularisation, we prove that the
regret, for both learning algorithms, is of the order $\mathcal{O}(\sqrt{N}) $
(up to a logarithmic factor)
over $N$ episodes, matching the best known result from the literature.
- Abstract(参考訳): 本研究は、エントロピー正規化緩和確率制御視点を、強化学習(rl)アルゴリズムを設計するための原理的枠組みとして用いる。
ここでエージェントは、最適な緩和ポリシーに従って分布するノイズ制御を生成して環境と相互作用する。
一方、ノイズの多い政策は、空間を探索し、学習を促進するが、一方、非最適行動に正の確率を割り当てることでバイアスを導入する。
この探索-探索トレードオフはエントロピー正規化の強さによって決定される。
本研究では,2つのエントロピー規則の定式化から得られたアルゴリズムについて検討する。エントロピーをコスト目標に加える探索的制御アプローチと,エントロピーが2回連続するポリシーのばらつきを解析する近親政策更新アプローチである。
両アルゴリズムがガウス緩和ポリシーを導出する有限地平線連続時間線形四元数(LQ)RL問題を解析する。
ガウスポリシーの値関数とノイズ評価との正確な差を定量化し、実行ノイズが時間とともに独立でなければならないことを示す。
緩和されたポリシーからのサンプリング頻度とエントロピー正規化の強さを規定するパラメータをチューニングすることにより、両方の学習アルゴリズムにとって後悔は、$\mathcal{o}(\sqrt{n}) $(対数係数まで)が$n$のエピソード以上であり、文献から最もよく知られた結果と一致することを証明する。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Exploratory Optimal Stopping: A Singular Control Formulation [2.7309692684728613]
強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。
乱数停止時間の累積残エントロピーをペナル化することにより、問題の正規化版を導入する。
実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出する。
論文 参考訳(メタデータ) (2024-08-18T02:31:55Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。
固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。