Fugu-MT 論文翻訳(概要): Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning

論文の概要: Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning

arxiv url: http://arxiv.org/abs/2208.04466v2
Date: Thu, 11 Aug 2022 15:09:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-12 11:11:37.318104
Title: Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning
Title（参考訳）: 連続時間線形2次強化学習のためのエントロピー正規化器の最適スケジューリング
Authors: Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang
Abstract要約: ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。この探索-探索トレードオフはエントロピー正則化の強さによって決定される。どちらの学習アルゴリズムに対しても、この後悔は$N$のエピソードに対して$mathcalO(sqrtN)$(対数係数まで)の順であることを示す。
参考スコア（独自算出の注目度）: 2.508001481512062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work uses the entropy-regularised relaxed stochastic control perspective as a principled framework for designing reinforcement learning (RL) algorithms. Herein agent interacts with the environment by generating noisy controls distributed according to the optimal relaxed policy. The noisy policies, on the one hand, explore the space and hence facilitate learning but, on the other hand, introduce bias by assigning a positive probability to non-optimal actions. This exploration-exploitation trade-off is determined by the strength of entropy regularisation. We study algorithms resulting from two entropy regularisation formulations: the exploratory control approach, where entropy is added to the cost objective, and the proximal policy update approach, where entropy penalises the divergence of policies between two consecutive episodes. We analyse the finite horizon continuous-time linear-quadratic (LQ) RL problem for which both algorithms yield a Gaussian relaxed policy. We quantify the precise difference between the value functions of a Gaussian policy and its noisy evaluation and show that the execution noise must be independent across time. By tuning the frequency of sampling from relaxed policies and the parameter governing the strength of entropy regularisation, we prove that the regret, for both learning algorithms, is of the order $\mathcal{O}(\sqrt{N}) $ (up to a logarithmic factor) over $N$ episodes, matching the best known result from the literature.
Abstract（参考訳）: 本研究は、エントロピー正規化緩和確率制御視点を、強化学習(rl)アルゴリズムを設計するための原理的枠組みとして用いる。ここでエージェントは、最適な緩和ポリシーに従って分布するノイズ制御を生成して環境と相互作用する。一方、ノイズの多い政策は、空間を探索し、学習を促進するが、一方、非最適行動に正の確率を割り当てることでバイアスを導入する。この探索-探索トレードオフはエントロピー正規化の強さによって決定される。本研究では,2つのエントロピー規則の定式化から得られたアルゴリズムについて検討する。エントロピーをコスト目標に加える探索的制御アプローチと,エントロピーが2回連続するポリシーのばらつきを解析する近親政策更新アプローチである。両アルゴリズムがガウス緩和ポリシーを導出する有限地平線連続時間線形四元数(LQ)RL問題を解析する。ガウスポリシーの値関数とノイズ評価との正確な差を定量化し、実行ノイズが時間とともに独立でなければならないことを示す。緩和されたポリシーからのサンプリング頻度とエントロピー正規化の強さを規定するパラメータをチューニングすることにより、両方の学習アルゴリズムにとって後悔は、$\mathcal{o}(\sqrt{n}) $(対数係数まで)が$n$のエピソード以上であり、文献から最もよく知られた結果と一致することを証明する。

関連論文リスト

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。 Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2025-05-28T17:38:45Z)
Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [3.973277434105709]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。サンプリングメッシュのサイズがゼロになる傾向にあるため、制御された状態過程は、ポリシーに従って係数で動的に弱く収束する。これらの結果に基づいて、離散時間観測に基づいて、様々な政策勾配推定器のバイアスとばらつきを分析した。
論文参考訳（メタデータ） (2025-03-13T02:35:23Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Exploratory Optimal Stopping: A Singular Control Formulation [2.7309692684728613]
強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。乱数停止時間の累積残エントロピーをペナル化することにより、問題の正規化版を導入する。実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出する。
論文参考訳（メタデータ） (2024-08-18T02:31:55Z)
Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では、エントロピー規則化値関数の勾配に基づいてポリシーを更新する連続時間ポリシーミラー降下ダイナミクスを解析する。固定エントロピーレベルでは、力学は正規化問題の最適解に指数関数的に収束する。
論文参考訳（メタデータ） (2024-05-30T17:02:18Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文参考訳（メタデータ） (2021-10-19T17:21:09Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。この結果から, エントロピー正則化の役割を浮き彫りにした。
論文参考訳（メタデータ） (2020-07-13T17:58:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。