論文の概要: Compatible Gradient Approximations for Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2409.01477v1
- Date: Mon, 2 Sep 2024 22:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:48:38.481968
- Title: Compatible Gradient Approximations for Actor-Critic Algorithms
- Title(参考訳): Actor-Critic アルゴリズムの適合勾配近似
- Authors: Baturay Saglam, Dionysis Kalogerias,
- Abstract要約: 本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deterministic policy gradient algorithms are foundational for actor-critic methods in controlling continuous systems, yet they often encounter inaccuracies due to their dependence on the derivative of the critic's value estimates with respect to input actions. This reliance requires precise action-value gradient computations, a task that proves challenging under function approximation. We introduce an actor-critic algorithm that bypasses the need for such precision by employing a zeroth-order approximation of the action-value gradient through two-point stochastic gradient estimation within the action space. This approach provably and effectively addresses compatibility issues inherent in deterministic policy gradient schemes. Empirical results further demonstrate that our algorithm not only matches but frequently exceeds the performance of current state-of-the-art methods.
- Abstract(参考訳): 決定論的ポリシー勾配アルゴリズムは、連続システムの制御においてアクター批判的手法の基礎となるが、しばしば、入力アクションに対する批評家の値推定の導出に依存するため、不正確な問題に遭遇する。
この依存には、関数近似の下で困難なタスクである、正確なアクション値勾配計算が必要である。
本稿では,アクション空間内の2点確率勾配推定を通じて,アクション値勾配のゼロ階近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
このアプローチは、決定論的ポリシー勾配スキームに固有の互換性の問題に対して、有効かつ効果的に対処する。
さらに実験結果から,本アルゴリズムが現在の最先端手法の性能を上回ることが確認された。
関連論文リスト
- On the Second-Order Convergence of Biased Policy Gradient Algorithms [11.955062839855334]
勾配ポリシーは2階の定常点でサドルを逃れる。
バイアス勾配法の新しい2次解析法を提案する。
また,チェーンの初期状態分布の収束点を確立する。
論文 参考訳(メタデータ) (2023-11-05T02:33:30Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients [24.976352541745403]
本研究では,異なる種類の勾配推定器,測定値導関数について検討する。
この推定器はバイアスがなく、分散が低く、微分可能で微分不可能な関数近似器で使用することができる。
アクター・クリティカル・ポリシー・グラデーション・セッティングにおいて、この推定器を実証的に評価し、確率比や再パラメータ化のトリックに基づいた手法を用いて、同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-07-20T09:26:10Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Policy Gradient using Weak Derivatives for Reinforcement Learning [24.50189361694407]
本稿では、継続的な状態対応強化学習問題におけるポリシー探索について考察する。
弱導関数を用いた勾配推定は, 一般的なスコア関数を用いた勾配推定よりも低い値を示した。
論文 参考訳(メタデータ) (2020-04-09T23:05:18Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。