論文の概要: How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization
- arxiv url: http://arxiv.org/abs/2004.14309v2
- Date: Thu, 22 Oct 2020 14:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 10:17:03.886818
- Title: How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization
- Title(参考訳): 役に立つ批評を学ぶには?
モデルベースアクション・gradient-estimatorポリシー最適化
- Authors: Pierluca D'Oro, Wojciech Ja\'skowski
- Abstract要約: 本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
- 参考スコア(独自算出の注目度): 10.424426548124696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deterministic-policy actor-critic algorithms for continuous control improve
the actor by plugging its actions into the critic and ascending the
action-value gradient, which is obtained by chaining the actor's Jacobian
matrix with the gradient of the critic with respect to input actions. However,
instead of gradients, the critic is, typically, only trained to accurately
predict expected returns, which, on their own, are useless for policy
optimization. In this paper, we propose MAGE, a model-based actor-critic
algorithm, grounded in the theory of policy gradients, which explicitly learns
the action-value gradient. MAGE backpropagates through the learned dynamics to
compute gradient targets in temporal difference learning, leading to a critic
tailored for policy improvement. On a set of MuJoCo continuous-control tasks,
we demonstrate the efficiency of the algorithm in comparison to model-free and
model-based state-of-the-art baselines.
- Abstract(参考訳): 連続制御のための決定論的・政治的アクター批判アルゴリズムは、アクターの動作を批評家にプラグインし、アクターのジャコビアン行列を入力アクションの勾配にチェーンすることで得られるアクション値勾配を上昇させることによりアクターを改善する。
しかし、グラデーションの代わりに、批評家は通常、期待されるリターンを正確に予測するように訓練されているだけであり、それ自体は政策最適化には役に立たない。
本稿では,行動-価値勾配を明示的に学習する政策勾配の理論に基づくモデルに基づくアクター-クリティックアルゴリズムであるmageを提案する。
MAGEは、時間差学習において勾配目標を計算するために学習力学を通して逆伝播し、政策改善のために調整された批評家に繋がる。
一連のムジョコ連続制御タスクについて,モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
関連論文リスト
- Compatible Gradient Approximations for Actor-Critic Algorithms [0.0]
本稿では,アクション値勾配のゼロ次近似を用いることで,そのような精度の必要性を回避できるアクタ批判アルゴリズムを提案する。
実験結果から,本アルゴリズムは現在の最先端手法に適合するだけでなく,しばしば性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-09-02T22:00:50Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Actor-Critic learning for mean-field control in continuous time [0.0]
強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
論文 参考訳(メタデータ) (2023-03-13T10:49:25Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。