論文の概要: Bayesian policy gradient and actor-critic algorithms
- arxiv url: http://arxiv.org/abs/2604.27563v1
- Date: Thu, 30 Apr 2026 08:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.988454
- Title: Bayesian policy gradient and actor-critic algorithms
- Title(参考訳): ベイズ政策勾配とアクター批判アルゴリズム
- Authors: Mohammad Ghavamzadeh, Yaakov Engel, Michal Valko,
- Abstract要約: ポリシー勾配法は、性能勾配推定に従ってパラメータ化されたポリシーを適用する強化学習アルゴリズムである。
まず,政策勾配をガウス過程としてモデル化したベイズ的手法を提案する。
自然勾配の推定と勾配推定の不確実性の尺度は、ほとんど余分なコストで提供される。
- 参考スコア(独自算出の注目度): 31.145655116942375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods are reinforcement learning algorithms that adapt a parameterized policy by following a performance gradient estimate. Conventional policy gradient methods use Monte-Carlo techniques to estimate the gradient, which tend to have high variance, requiring many samples and resulting in slow convergence. We first propose a Bayesian framework for policy gradient, based on modeling the policy gradient as a Gaussian process. This reduces the number of samples needed to obtain accurate gradient estimates. Moreover, estimates of the natural gradient and a measure of the uncertainty in the gradient estimates, namely, the gradient covariance, are provided at little extra cost. Since the proposed framework considers system trajectories as its basic observable unit, it does not require the dynamics within trajectories to be of any particular form, and can be extended to partially observable problems. On the downside, it cannot exploit the Markov property when the system is Markovian. To address this, we supplement our Bayesian policy gradient framework with a new actor-critic learning model in which a Bayesian class of non-parametric critics, based on Gaussian process temporal difference learning, is used. Such critics model the action-value function as a Gaussian process, allowing Bayes rule to be used to compute the posterior distribution over action-value functions, conditioned on the observed data. Appropriate choices of the policy parameterization and of the prior covariance (kernel) between action-values yield closed-form expressions for the posterior of the gradient of the expected return with respect to the policy parameters. We perform detailed experimental comparisons of the proposed Bayesian policy gradient and actor-critic algorithms with classic Monte-Carlo based policy gradient methods, on a number of reinforcement learning problems.
- Abstract(参考訳): ポリシー勾配法は、性能勾配推定に従ってパラメータ化されたポリシーを適用する強化学習アルゴリズムである。
従来の政策勾配法はモンテカルロ法を用いて勾配を推定するが、これは高いばらつきを持ち、多くのサンプルを必要とし、結果として緩やかな収束をもたらす。
まず,政策勾配をガウス過程としてモデル化したベイズ的手法を提案する。
これにより、正確な勾配推定を得るのに必要なサンプルの数を減らすことができる。
さらに、自然勾配の推定と勾配推定の不確かさの尺度、すなわち勾配共分散は、ほとんど余分なコストで提供される。
提案フレームワークは,システムトラジェクトリを基本的な可観測単位とみなすため,任意の形態の系内力学を必要とせず,部分的に可観測問題に拡張することができる。
マイナス面として、システムがMarkovianであるとき、Markovプロパティを利用することはできない。
そこで,本稿では,ガウス過程の時間差学習に基づく非パラメトリック批評家のベイズクラスを用いたアクター批判学習モデルを用いて,ベイズ政策勾配の枠組みを補足する。
このような批判者は、アクション値関数をガウス過程としてモデル化し、ベイズ則を観測データに条件付されたアクション値関数の後方分布の計算に使用することができる。
アクション値間のポリシーパラメータ化と事前の共分散(カーネル)の適切な選択は、ポリシーパラメータに関して期待されるリターンの勾配の後方の閉形式表現を生成する。
提案したベイズ政策勾配法とアクター批判アルゴリズムをモンテカルロの古典的政策勾配法と比較し,多くの強化学習問題について実験的に比較した。
関連論文リスト
- Matrix Low-Rank Approximation For Policy Gradient Methods [10.196333441334895]
行動にマップする政策を推定することは、強化学習における中心的な問題である。
本稿では,勾配法アルゴリズムのパラメータを効率的に推定する低ランク行列モデルを提案する。
論文 参考訳(メタデータ) (2024-05-27T19:49:08Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - A Temporal-Difference Approach to Policy Gradient Estimation [27.749993205038148]
本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。
本研究では、非政治データストリームからの勾配批判の時間差更新を用いて、分散シフト問題をモデル無しでサイドステップする最初の推定器を開発する。
論文 参考訳(メタデータ) (2022-02-04T21:23:33Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。