論文の概要: Value Improved Actor Critic Algorithms
- arxiv url: http://arxiv.org/abs/2406.01423v1
- Date: Mon, 3 Jun 2024 15:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:30:12.294213
- Title: Value Improved Actor Critic Algorithms
- Title(参考訳): アクター批判アルゴリズムの値改善
- Authors: Yaniv Oren, Moritz A. Zanger, Pascal R. van der Vaart, Matthijs T. J. Spaan, Wendelin Bohmer,
- Abstract要約: 本稿では,2つの改良演算子を用いたACフレームワークの汎用拡張を提案する。
本稿では,オンラインオフラインACアルゴリズムTD3とDDPGの2つの実用的なVI-ACアルゴリズムを設計する。
我々は,MujocoベンチマークのVI-TD3とVI-DDPGを評価し,テスト対象のすべての環境において,それぞれのベースラインの性能を改善したり適合させたりすることを発見した。
- 参考スコア(独自算出の注目度): 5.617360550806964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern reinforcement learning algorithms build on the actor-critic (AC) framework: iterative improvement of a policy (the actor) using policy improvement operators and iterative approximation of the policy's value (the critic). In contrast, the popular value-based algorithm family employs improvement operators in the value update, to iteratively improve the value function directly. In this work, we propose a general extension to the AC framework that employs two separate improvement operators: one applied to the policy in the spirit of policy-based algorithms and one applied to the value in the spirit of value-based algorithms, which we dub Value-Improved AC (VI-AC). We design two practical VI-AC algorithms based in the popular online off-policy AC algorithms TD3 and DDPG. We evaluate VI-TD3 and VI-DDPG in the Mujoco benchmark and find that both improve upon or match the performance of their respective baselines in all environments tested.
- Abstract(参考訳): 多くの現代的な強化学習アルゴリズムはアクター・クリティカル(AC)フレームワークに基づいて構築されており、ポリシー改善演算子を使用したポリシー(アクター)の反復的改善とポリシーの価値の反復的近似(批評家)である。
対照的に、人気のある値ベースのアルゴリズムファミリーは、値更新に改善演算子を使用し、値関数を直接反復的に改善する。
本稿では、ポリシーベースのアルゴリズムの精神におけるポリシーに適用されるものと、価値ベースのアルゴリズムの精神における価値に適用されるものとの2つの異なる改善演算子を用いたACフレームワークの一般的な拡張を提案する。
本稿では,オンラインオフラインACアルゴリズムTD3とDDPGの2つの実用的なVI-ACアルゴリズムを設計する。
我々は,MujocoベンチマークのVI-TD3とVI-DDPGを評価し,テスト対象のすべての環境において,それぞれのベースラインの性能を改善したり適合させたりすることを発見した。
関連論文リスト
- ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages [41.30585319670119]
本稿では, アクター批判的深層強化学習におけるベイズ近似への効果的かつ実践的なステップを紹介する。
我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、これは批判重みのスペクトル正規化の理論的基礎を提供する。
我々は,MuJoCo連続制御ベンチマークにおいて,PPO,SAC,TD3の中央値および中間値の平均値に対する有意な改善を示した。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Characterizing the Gap Between Actor-Critic and Policy Gradient [47.77939973964009]
本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。
我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
論文 参考訳(メタデータ) (2021-06-13T06:35:42Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。
我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。
標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文 参考訳(メタデータ) (2020-08-03T10:19:59Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。