論文の概要: Variational Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2108.01215v2
- Date: Wed, 4 Aug 2021 20:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 12:48:45.421268
- Title: Variational Actor-Critic Algorithms
- Title(参考訳): 変分アクター臨界アルゴリズム
- Authors: Yuhua Zhu, Lexing Ying
- Abstract要約: 本稿では,値関数とポリシーの両方に対する変動的定式化に基づいて,変動的アクター批判アルゴリズムのクラスを導入する。
変分定式化の目的関数は、値関数の最大化とベルマン残差の最小化の2つの部分からなる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a class of variational actor-critic algorithms based on a
variational formulation over both the value function and the policy. The
objective function of the variational formulation consists of two parts: one
for maximizing the value function and the other for minimizing the Bellman
residual. Besides the vanilla gradient descent with both the value function and
the policy updates, we propose two variants, the clipping method and the
flipping method, in order to speed up the convergence. We also prove that, when
the prefactor of the Bellman residual is sufficiently large, the fixed point of
the algorithm is close to the optimal policy.
- Abstract(参考訳): 本稿では,値関数とポリシーの両方に対する変分定式化に基づく変分的アクタ-批判的アルゴリズムのクラスを提案する。
変分定式化の目的関数は、値関数を最大化する部分とベルマン残基を最小化する部分の2つの部分からなる。
値関数とポリシ更新を併用したバニラ勾配降下に加えて,収束を高速化するために,クリッピング法とフリップ法という2つの変種を提案する。
また,ベルマン残差の原因子が十分大きい場合には,アルゴリズムの不動点が最適方針に近いことも証明する。
関連論文リスト
- An Adaptive Re-evaluation Method for Evolution Strategy under Additive Noise [3.92625489118339]
本稿では,加法的なガウスホワイトノイズによる関数値の最適再評価数を適応的に選択する手法を提案する。
実験では,CMA-ESのノイズハンドリング手法を人工的なテスト関数の集合上で実験的に比較した。
論文 参考訳(メタデータ) (2024-09-25T09:10:21Z) - Variable Substitution and Bilinear Programming for Aligning Partially Overlapping Point Sets [48.1015832267945]
本研究では,RPMアルゴリズムの最小化目的関数を用いて要求を満たす手法を提案する。
分岐とバウンド(BnB)アルゴリズムが考案され、パラメータのみに分岐し、収束率を高める。
実験による評価は,非剛性変形,位置雑音,外れ値に対する提案手法の高剛性を示す。
論文 参考訳(メタデータ) (2024-05-14T13:28:57Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - On the implementation of a global optimization method for mixed-variable
problems [0.30458514384586394]
このアルゴリズムは、グットマンの放射基底関数と、レジスとシューメーカーの計量応答面法に基づいている。
これら2つのアルゴリズムの一般化と改良を目的としたいくつかの修正を提案する。
論文 参考訳(メタデータ) (2020-09-04T13:36:56Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。