論文の概要: Towards Provable Log Density Policy Gradient
- arxiv url: http://arxiv.org/abs/2403.01605v1
- Date: Sun, 3 Mar 2024 20:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:34:57.086730
- Title: Towards Provable Log Density Policy Gradient
- Title(参考訳): ログ密度ポリシーのグラディエント化に向けて
- Authors: Pulkit Katdare, Anant Joshi and Katherine Driggs-Campbell
- Abstract要約: 政策勾配法は近代的な強化学習の成功を支える重要な要素である。
本研究は,この残留項が重要であり,強化学習手法のサンプル複雑度を向上させる可能性があることを論じる。
本稿では,この残差項を補正するポリシ勾配を推定するために,ログ密度勾配を提案する。
- 参考スコア(独自算出の注目度): 6.0891236991406945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods are a vital ingredient behind the success of modern
reinforcement learning. Modern policy gradient methods, although successful,
introduce a residual error in gradient estimation. In this work, we argue that
this residual term is significant and correcting for it could potentially
improve sample-complexity of reinforcement learning methods. To that end, we
propose log density gradient to estimate the policy gradient, which corrects
for this residual error term. Log density gradient method computes policy
gradient by utilising the state-action discounted distributional formulation.
We first present the equations needed to exactly find the log density gradient
for a tabular Markov Decision Processes (MDPs). For more complex environments,
we propose a temporal difference (TD) method that approximates log density
gradient by utilizing backward on-policy samples. Since backward sampling from
a Markov chain is highly restrictive we also propose a min-max optimization
that can approximate log density gradient using just on-policy samples. We also
prove uniqueness, and convergence under linear function approximation, for this
min-max optimization. Finally, we show that the sample complexity of our
min-max optimization to be of the order of $m^{-1/2}$, where $m$ is the number
of on-policy samples. We also demonstrate a proof-of-concept for our log
density gradient method on gridworld environment, and observe that our method
is able to improve upon the classical policy gradient method by a clear margin,
thus indicating a promising novel direction to develop reinforcement learning
algorithms that require fewer samples.
- Abstract(参考訳): 政策勾配法は現代の強化学習の成功を支える重要な要素である。
現代の政策勾配法は成功したが、勾配推定に残差誤差を導入する。
本研究では,この残余項が重要であり,強化学習法のサンプル複雑度が向上する可能性を示唆する。
そこで我々は,この残差項を補正したポリシ勾配を推定するために,ログ密度勾配を提案する。
ログ密度勾配法は、状態-作用割引分布の定式化を利用して政策勾配を計算する。
まず,表層マルコフ決定過程(MDP)のログ密度勾配を正確に求めるために必要な方程式を提示する。
より複雑な環境では,逆向きのオンポリシーサンプルを用いてログ密度勾配を近似する時間差法(td法)を提案する。
マルコフ連鎖からの逆サンプリングは非常に制限的であるため、オンポリシーサンプルのみを使用してログ密度勾配を近似できるmin-max最適化も提案する。
また、このmin-max最適化のために、一意性および線形関数近似下での収束も証明する。
最後に、min-max最適化のサンプル複雑性が$m^{-1/2}$のオーダーであることを示し、ここで$m$はオンポリシーサンプルの数である。
また,グリッドワールド環境におけるログ密度勾配法の概念実証を行い,提案手法が従来の政策勾配法を明確なマージンで改善できることを示すとともに,より少ないサンプルを必要とする強化学習アルゴリズムを開発するための新たな方向性を示す。
関連論文リスト
- Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Sobolev Space Regularised Pre Density Models [51.558848491038916]
本研究では,ソボレフ法則の正則化に基づく非パラメトリック密度推定法を提案する。
この方法は統計的に一貫したものであり、帰納的検証モデルを明確かつ一貫したものにしている。
論文 参考訳(メタデータ) (2023-07-25T18:47:53Z) - Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results [0.9900482274337404]
BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
論文 参考訳(メタデータ) (2022-09-12T16:23:15Z) - A Temporal-Difference Approach to Policy Gradient Estimation [27.749993205038148]
本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
本研究では、非政治データストリームからの勾配批判の時間差更新を用いて、分散シフト問題をモデル無しでサイドステップする最初の推定器を開発する。
論文 参考訳(メタデータ) (2022-02-04T21:23:33Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Tighter Bounds on the Log Marginal Likelihood of Gaussian Process
Regression Using Conjugate Gradients [19.772149500352945]
下界の最大化によるモデルパラメータの近似的最大度学習は、スパース変分アプローチの利点の多くを保っていることを示す。
実験では、他の共役グラデーションベースのアプローチと比較して、トレーニング時間の同等の量のためのモデルで予測性能の改善を示します。
論文 参考訳(メタデータ) (2021-02-16T17:54:59Z) - Stochastic Gradient Variance Reduction by Solving a Filtering Problem [0.951828574518325]
ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる
試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。
勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
論文 参考訳(メタデータ) (2020-12-22T23:48:42Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。